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服 看 散 坤 一 局 棋 ， 满 样 黑 白 子 离 离 。 
锂 然 一 子 成 何 动 ， 唯 有 苍苍 妙 手 知 。 


这 是 被 称 为 “波斯 李 日 ”的 诗人 奥马 尔 - 海 亚 姆 (1048 一 1122) 的 
《 鲁 拜 集 》 中 的 诗句 。 作 为 一 名 精通 天 文 和 数学 的 大 学 者 ， 奥 马尔 认 
为 ， 宇宙 的 规律 是 可 以 探知 的 ， 并 可 以 用 严密 而 美妙 的 数学 方式 表示 
出 来 。 前 定 与 随机 ， 必 然 与 偶然 ， 同 来 是 人 文科 学 中 长 期 争论 不 休 的 
命题 。 自 然 科 学 理论 始终 受 实验 和 观测 的 检验 ， 而 它 的 每 一 个 重大 发 
现 又 都 会 反馈 到 文化 和 社会 的 层面 ， 对 人 的 哲学 和 历史 观 有 所 局 示 。 


决定 性 和 概率 性 一 直 被 当 作 数 学 、 物 理 等 学 科 对 目 然 界 的 描述 方 
式 。 在 牛顿 创立 古典 力学 之 后 的 250 年 间 ， 直 至 20 世 纪 20 年 代 ， 决 定论 
长 期 处 于 主导 地 位 ， 基 于 概率 论 的 统计 描述 或 者 说 数据 的 描述 ， 则 一 
直属 于 不 得 已 情况 下 所 采用 的 辅助 手段 。 决 定性 的 牛顿 力学 从 计算 和 
预测 的 观点 来 看 ， 实 际 上 也 具有 内 秉 随机 性 ， 这 吏 是 微观 层次 上 的 混 
沌 运动 。 大 量 隐藏 在 暗 数 据 育 后 的 某 些 看 似 简单 原因 所 导致 的 复杂 后 
果 ， 则 渐渐 成 为 混沌 研究 的 重要 信息 。 混 沌 不 是 无 序 和 混乱 。 与 人 们 
习 以 为 第 的 周期 排列 或 对 称 形状 的 数据 相 比 ， 大 目 然 和 人 类 社会 中 的 
很 多 数据 其 实 就 古 一 种 没有 周期 性 次 序 的 温 沌 。 在 理想 模型 中 ， 它 可 
能 包含 着 无 穷 的 内 在 层次 ， 层 次 之 则 存在 和 目 相似 性 或 不 尽 相 似 。 在 观 
察 手段 和 技术 的 分 辩 率 不 高 时 ， 只 能 看 到 每 一 个 层次 或 某 一 种 类 型 的 
结构 。 但 技术 条 件 改变 或 提高 后 ， 在 远离 不 能 识别 之 处 束 会 出 现 更 小 
尺度 上 的 结构 。 零 维 的 点 、 一 维 的 线 、 二 维 的 面 、 三 维 的 体 和 四 维 的 
时 空 ， 是 人 们 现在 所 能 认 知 的 数据 空间 。 如 末 在 不 远 的 将 来 ， 我 们 真 


的 进入 一 个 超 数 据 时 代 ， 现 有 的 技术 和 描述 手段 也 许 就 无 法 对 这 种 高 
度 无 序数 据 的 混沌 运动 进行 分 形 ， 而 关于 相 变 和 临界 现象 理论 的 框架 
也 需要 一 个 新 的 重 构 。 


这 时 我 们 不 由 得 想到 那个 著名 的 洛 伦 兹 “蝴蝶 效应 ”理论 ， 其 实 和 
这 个 理论 相 联 系 的 还 有 一 个 被 称 为 “清流 发 生机 制 ? 的 观点 ， 认 为 同 消 
流 的 转变 由 少数 目 由 度 决 定 ， 经 过 两 三 次 突变 ， 运 动 束 到 了 维 数 不 高 
的 奇怪 吸引 子 上 。 这 里 所 谓 的 吸引 于 是 指 运动 轨迹 长 时 间 之 后 的 终极 
形态 ， 它 可 能 十 稳定 的 平衡 点 或 周期 性 的 轨道 ， 也 可 能 是 继续 不 断 变 
化 、 没 有 明显 规则 或 次 序 的 许多 回转 曲线 。 无 论 是 蝴蝶 效应 还 是 清流 
发 生机 制 ， 其 实 都 是 对 我 们 现在 正在 研究 的 激活 数据 学 的 一 种 理论 上 
的 关照 和 呼应 。 事 实 上 ， 大 数据 乃至 超 数 据 时 代 的 数据 运动 ， 束 是 这 
样 一 种 处 于 混沌 和 分 形 之 下 的 对 数据 运动 轨迹 及 其 规律 的 研究 。 许 多 
看 起 来 杂乱 无 章 、 随 机 起 伏 的 数据 变化 或 时 空 穿 越 ， 可 能 造成 的 吏 是 
类 似 亚马逊 级 别 的 数据 风暴 。 如 果 说 上 述 蝴 蝶 效 应 粉碎 的 是 本 就 无 法 
实现 的 长 期 天 气 预 报 的 幻梦 ， 那 么 紧 接着 的 奇怪 吸引 子 告诉 我 们 的 
古 ， 人 类 对 于 天 气 的 实际 预报 能 力 并 没有 因 那 只 蝴蝶 的 元 膀 而 受到 任 
何 影 响 ， 相 反 ， 却 因 对 于 更 加 混沌 的 数据 的 研究 而 提高 了 。 激 活 数 据 
学 就 古 一 种 基于 复 洒 理论 及 混沌 研究 的 关于 未 来 大 数据 力 至 超 数 据 时 
代 的 理论 假说 ， 就 像 上 面 讲 的 天 气 预 报 ， 但 它 所 关心 的 并 不 是 下 个 星 
期 的 晴雨 冷 热 ， 而 可 能 是 未 来 10 年 耕种 季 市 的 平均 降水 量 和 平均 气 
温 。 激 活 数据 学 研究 使 以 往 根 据 统计 原则 所 做 的 预报 上 升 为 数据 动力 
学 的 预报 ， 也 束 是 应 用 了 似 是 随 机 现象 的 内 在 规律 ， 从 而 提高 了 预测 
单个 轨道 近期 行为 的 精确 度 ， 并 丰富 了 长 期 预报 的 办 法 。 


同样 ， 我 们 还 可 以 考察 一 个 似 静 实 动 的 模型 。 让 沙子 从 一 个 漏斗 
孔 中 缓 缓 落 到 桌面 上 ， 形 成 渐渐 变 大 的 沙 堆 ， 总 有 最 后 新 添加 的 某 一 
入 沙子 会 在 整个 沙 堆 勉 强 维持 平衡 的 锥 面 上 导致 一 次 “ 雪 朋 ”， 使 一 氢 
沙子 泣 到 堆 属 ， 雪 朋 留 下 的 小 洼地 会 修 后 续 的 沙 流 填 平 ， 直 到 下 一 次 
更 大 的 雪 朋 。 在 我 们 收集 所 有 这 些 雪崩 的 数据 后 ， 可 以 发 现 它们 的 大 


小 和 间隔 遵循 某 些 数据 动力 规律 ， 而 沙 堆 模型 无 疑 也 启发 了 我 们 对 于 
数据 沿 活 状态 中 的 相 变 和 突变 的 研究 。 无 论 数据 的 平衡 态 的 相 变 或 非 
平衡 的 临界 多 么 不 确定 ， 可 以 确定 的 是 ， 在 搜索 、 融 合 、 油 活 和 碰撞 
等 一 系列 状态 下 ， 数 据 在 某 一 个 临界 点 附近 的 扰动 必然 会 导致 条 种 全 
局 性 后 末 。 当 然 ， 是否 存在 可 以 个“ 油 活 ”的 “数据 蝴蝶 ”或 “数据 吸引 
子 ”， 还 需要 我 们 进一步 探寻 ， 但 这 并 不 否定 我 们 的 所 愿 ， 而 仅仅 需要 
我 们 从 实际 数据 的 研究 和 挖 据 中 进一步 加 以 发 现 。 


作为 一 种 理论 假说 ， 激 活 数 据 学 束 像 一 座 朝 问 深 次 的 大 数据 宇宙 
的 “天 眼 ”。 它 是 未 来 人 类 进入 云 脑 时 代 的 预报 ， 十 关于 混沌 的 数据 世 
界 的 跳出 决定 论 和 概率 论 的 非 此 即 彼 、 亦 此 亦 彼 的 复 洒 理论 的 大 数据 
思维 范式 的 革命 。 从 一 定 意义 上 来 说 ， 大 数据 就 是 面向 未 来 社会 人 类 
需要 破译 的 “基因 ”。 正 如 因 发 明 一 种 DNA (脱氧 核糖 核酸 ) 快速 测序 
方法 而 获得 1980 年 诺 贝 尔 化 学 奖 的 吉尔 伯 特 针对 生物 学 研究 范式 的 变 
化 指出 的 ,“ 正 在 兴起 的 新 的 范式 在 于 ， 所 有 的 基因 将 被 知晓 ， 今 后生 
物 学 人 研究 项 目的 起 点 将 是 理论 的 。 一 位 科学 家 将 从 理论 的 假设 开始 ， 
然后 才 转 向 实验 室 去 检验 该 假设 *。 是 的 ， 借 助 日 渐 深 入 的 人 工 闹 能 的 
发 展 ， 大 数据 的 理论 研究 正在 激发 人 类 的 新 的 假想 和 猜测 。 正 古 这 种 
假想 和 猜测 ， 让 我 们 以 某 种 “对 称 破 缺 * 的 方式 去 探知 深 遂 未 知 的 数据 
海洋 ， 发 现 诸多 社会 发 展 法 则 育 后 产生 影响 甚至 文 配 的 物质 和 数字 的 
为 量 训 


人 生生 一 种 快 变 量 ， 语 言 是 一 种 慢 变量 ， 而 数据 将 是 一 种 突变 
量 。 虽 然 “ 未 知 ” 依 然 是 现实 的 一 部 分 ,但 是 映 处 海量 数据 大 爆发 时 
代 ， 人 们 坚信 ， 示 来 已 来 ! 从 “ 块 数据 1.0” 到 现在 的 “ 块 数据 4.0”"， 我 们 
一 直 在 持续 探讨 这 个 已 来 的 未 来 ， 尤 其 是 基于 对 “以 人 为 原点 的 数据 社 
会 学 的 范式 章 命 ?的 认 知 。 事 实 上 ， 从 一 开始 ， 我 们 就 没有 把 大 数据 仅 
仅 看 作 所 请 的 “大 ”的 数据 ， 而 是 把 大 数据 看 作 一 种 “ 活 ” 的 数据 ， 因 为 
只 有 激活 ， 大 数据 才 有 生命 ， 才 有 社会 属性 ， 才 能 成 为 未 来 世界 人 们 ] 
赖 以 生存 与 发 展 的 土壤 和 空气 。 最 后 ， 套 用 《爆裂 》 一 书 中 关于 现代 


世界 生存 的 九 大 原则 中 “系统 优 于 个 体 ” 的 表述 ， 真正 具有 竞争 性 的 古 
一 个 系统 ， 而 非 一 个 特别 强大 的 个 体 ， 有 是 一 套 能 够 保证 不 断 成 功 的 制 
度 ， 而 不 是 一 个 天 才 个 人 的 行为 。 同 样 ， 激 活 数据 学 束 是 这 样 一 个 思 
想 的 系统 ， 驶 是 要 为 我 们 吴 处 的 这 个 大 数据 时 代 找 到 一 个 解决 方案 ， 
这 个 方案 可 以 构建 一 个 融合 数据 、 计 算 和 场景 的 系统 ， 让 我 们 在 大 数 
据 的 时 空中 真正 “思考 和 行动 起来。 世界 正 处 于 根本 结构 性 变革 中 ， 
我 们 必须 具备 这 样 一 种 能 力 ， 即 下 意识 地 适应 和 发 现 因 不 适应 我 们 的 
旧 习 惯 而 被 忽视 的 事情 。 


连 玉 明 
大 数据 战略 重点 实验 室 主任 
2018 年 4 月 3 日 于 北京 


绪论 
大 数据 时 代 的 解决 方 柔 


本 书 探讨 的 主题 是 大 数据 时 代 油 活 数 据 学 的 提出 、 运 行 机 理 及 场 
景 应 用 。 激 活 数据 学 是 以 充分 发 挥 人 机 群体 智能 为 核心 ， 绿 合 运用 数 
据 科 学 、 生 命 科 学 和 社会 科学 提出 的 海量 数据 存储 、 处 理 的 解决 方 
案 。 激 活 数 据 学 将 确立 一 个 新 的 观察 人 类 希 能 和 机 如 智能 的 视角 ， 引 
导 人 们 重新 审视 数据 无 限 膨胀 可 能 造成 的 人 类 认 知 障碍 ， 重 新 思考 维 
持 一 个 健康 、 安 全 和 有 效 的 数字 社会 的 根本 办 法 ， 建 立 与 人 类 智能 复 
杂 性 同步 的 人 工 智能 系统 ， 开 局 用 复杂 性 系统 思维 认识 未 来 世界 和 改 
造 未 来 世界 之 旅 。 


大 数据 时 代 面 临 的 问题 与 挑战 


在 人 类 文明 的 伊始 ， 人 与 人 的 第 一 声 交 流 即 意味 着 “连接 ”的 开 
始 。 语 言 使 人 与 人 连接 ， 并 促使 用 于 记载 事物 的 文字 、 数 字符 号 产 
生 ， 这 样 的 “连接 *” 便 产生 了 “数据 *， 并 演化 为 人 类 文明 最 初 的 信息 与 
知识 。 在 漫长 的 农耕 文明 时 代 , “连接 ”主要 以 语言 沟通 和 书面 文字 沟 
通 的 形式 存在 。 进 入 工业 文明 时 代 ,“ 连 接 ? 开 始 通过 无 线 电台 、 电 
报 、 电 视 的 形式 存在 ， 但 这 样 的 “连接 ”产生 的 信息 往往 是 单 同 性 且 缺 
之 互动 的 。 互 联网 时 代 ， 人 和 人 开始 通过 网 络 进行 复杂 交错 的 互动 连 
接 。 社 交 网 站 、 电 子 邮件 、 搜 索引 擎 、 聊 天 工具 .…… 人 类 建立 连接 的 
方式 趋 于 多 样 化 、 多 维 化 ， 人 类 社会 产生 的 数据 也 因而 大 量 积 累 。 与 
此 同时 ， 数 据 的 价值 越 来 越 受到 人 们 的 重视 。 数 据 深刻 作用 于 政治 、 


经 济 、 文 化 等 领域 ， 市 来 更 多 的 创新 机 会 ， 从 生产 、 生 活 到 科研 ， 一 
个 大 数据 时 代 正在 开局 。 


在 美丽 的 贵州 省 黔 南 州 布依 族 苗族 自治 州 平 塘 县 ， 被 称 为 “中 国 天 
眼 ” 的 世界 上 最 大 的 单口 径 射 电 望 远 镜 一 -FAST (500 米 口径 球面 射电 
望远镜 ) 已 于 2016 年 9 月 25 日 落成 启用 。FAST 的 计算 速度 需 达 到 每 秒 
200 万 亿 次 以 上 ， 存 储 容量 需 达 到 10PB( 屿 以上。 这 一 世界 级 的 工程 将 
帮助 人 们 捕捉 到 更 多 来 自 宇 宙 的 信息 ， 它 的 背后 是 “天 文 级 ”的 海量 数 
据 存 储 和 复杂 的 计算 。 


随 着 时 间 的 推移 、 科 学 任务 的 深入 ， 以 及 数据 的 大 量 采 集 ， 未 来 
对 计算 速度 和 存储 容量 的 需求 将 爆炸 式 增长 ， 数 据 量 和 计算 量 都 将 “大 
得 惊人 ”。 


数据 是 没有 边际 的 ， 而 计算 力 、 存 储 力 始 终 存 在 物理 极限 。 在 过 
去 很 长 一 段 时 间 里 ， 科 技 日 新 月 异 的 发 展 依赖 摩尔 定律 。 当 摩尔 定律 
逐渐 失效 时 ， 数 据 的 膨胀 是 否 将 引发 世界 性 的 数字 爆炸 ? 


人 们 寄 布 望 于 量子 计算 ， 量 子 计算 将 有 可 能 使 计算 机 的 计算 能 
远 远 超过 今天 的 计算 机 ， 但 仍然 存在 很 多 障碍 。 如 何 长 时 间 地 保持 足 
够 多 的 量子 比特 的 量子 相干 性 ， 同 时 叉 能 够 在 这 个 时 间 段 之 内 做 出 足 
够 多 的 具有 超 高 精度 的 量子 逻辑 操作 ， 提 高 所 需 量子 逆 置 的 准确 性 ， 
还 面临 许多 困难 。 


人 类 作为 目 然 界 中 最 伟大 的 智能 体 已 经 进化 了 上 百 万 年 ， 人 类 所 
具有 的 智能 是 大 自然 赋予 人 类 最 高 级 的 礼物 。 今 后 ， 人 类 智能 仍 将 是 
人 造 系统 模仿 和 人 研究 的 对 象 。 人 类 未 来 对 数据 的 处 理 ， 要 更 多 地 模仿 
人 脑 对 数据 的 处 理 方 式 ， 人 脑 束 是 世界 上 最 好 的 “量子 计算 机 ”。 


目前 人 工 智 能 的 发 展 水 平 可 以 用 三 个 维度 来 描述 ， 即 强度 、 扩 展 
性 和 能 力 。 强 度 是 指 人 工 智 能 系统 的 智能 化 程度 ， 扩 展 性 是 指 人 工 窜 


能 系统 可 以 解决 的 问题 的 范围 ， 能 力 是 指 人 工 智能 系统 所 能 提供 的 平 
均 解 决 方案 的 质量 。 虽 然 我 们 已 经 在 专用 人 工 智能 领域 取得 了 突破 性 
进展 ， 但 目前 人 工 智能 水 乎 仍然 停留 在 “有 智能 没 智慧 ， 有 智商 没 情 
商 ， 会 计算 不 会 算计 ， 有 专 才 无 通才 ”的 水 平 。 其 特点 是 能 力 单一 ， 只 
能 在 某 个 特定 领域 内 发 挥 作用 。 在 人 工 状 能 2.0 时 代 ， 我 们 期 待 一 个 新 
的 框架 : 首先 ， 在 人 的 逻辑 层次 可 辩 明 ;， 其次， 可 以 处 理 大 规模 数 
据 ， 最 后 ， 可 以 基于 一 小 组 标记 数据 进行 学 习 。 我 们 认为 ， 将 数据 驱 
动 的 机 器 学 习 方 法 与 知识 引导 方法 相 结 合 ， 将 为 人 工 智能 的 未 来 推 开 
一 局 新 的 大 | ]。 


探索 解决 之 道 一 一 激活 数据 学 


受 人 脑 处 理 数据 方式 的 启发 ， 本 书 提出 了 一 种 新 的 处 理 海量 数据 
的 一 般 性 框架 一 一 激活 数据 学 。 


激活 数据 学 从 复杂 理论 出 发 ， 将 产生 智能 所 依赖 的 数据 、 软 件 硬 
件 环 境 、 交 互 规则 等 视 作 一 个 具有 “简单 性 、 局 部 性 、 全 局 性 、 内 玛 
力 、 动 态 性 ”的 开放 复杂 系统 ， 智 能 产生 的 过 程 即 开放 复杂 系统 中 各 个 
具有 局 部 目标 和 行为 的 自主 体 通过 自主 行为 及 动态 环境 相互 作用 达到 
整体 的 全 局 目标 所 涌现 的 群体 智能 ， 这 种 涌现 的 群体 智能 能 够 高 效 求 
解 问 题 。 


激活 数据 学 中 采用 块 数据 模 型 作为 数据 模型 。 块 数据 把 各 种 分 散 
的 点 数据 和 分 割 的 条 数据 汇聚 在 一 个 特定 平台 上 并 使 之 发 生 持续 的 到 
合 效 应 。 块 数据 的 聚合 打破 了 传统 信息 不 对 称 和 物理 区 域 、 行 业 领域 
对 数据 流动 的 限制 ， 高 度 关 联 的 各 类 数据 可 以 在 没有 任何 障碍 和 限制 
的 条 件 下 目 由 流动 、 相 互 作用 ， 为 智能 的 产生 创造 了 条 件 。 


激活 数据 学 的 核心 是 将 人 类 认 知 能 力 与 计算 机 快速 运算 和 海量 存 
储 的 能 力 结合 起 来 。 一 方面 ， 提 高 智能 系统 的 置信 度 ， 避 免 人 工 智能 
技术 的 局 限 性 所 造成 的 风险 甚至 危害 ; 另 一 方面 ， 建 立 人 类 参与 的 混 
合 增强 智能 ， 将 海量 数据 通过 人 机 混合 增强 智能 实现 最 佳 释放 。 这 种 
形态 是 人 工 智能 可 行 的 、 重 要 的 成 长 模式 。 

数据 搜索 、 关 联 融 合 、 自 激活 、 热 点 减 量化 、 群 体 智能 是 激活 数 
据 学 的 5 个 运行 阶段 ， 构 成 了 激活 数据 学 模型 化 运行 的 完整 流程 (如 图 
0-1 所 示 ) 。 
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图 0-1 激活 数据 学 模型 


数据 搜索 是 激活 数据 学 的 数据 准备 阶段 ， 通 过 对 数据 的 主动 搜索 
和 目 我 的 深度 学 习 ， 透 彻 感 扼 、 精 确 描述 现实 物理 空间 的 多 模 态 场景 
言 轧 ， 构 建 更 加 丰富 的 数据 特征 维度 ， 更 快 、 更 精准 地 搜索 到 目标 主 
体 ， 为 机 器 学 习 准 备 大 量 数 据 作为 “燃料 来 源 " 和 “ 助 推 剖 ”。 


关联 融合 是 激活 数据 学 的 数据 预 处 理 阶段 ， 对 异 构 、 多 源 、 多 模 
仿 感 知 数据 进行 信息 融合 ， 打 破 数 据 壁 仅 ， 让 不 同 领 域 、 不 同类 型 的 
数据 成 为 高 度 和 关联 的 整体 ， 为 智能 的 产生 创造 条 件 。 


目 激活 是 激活 数据 学 的 智能 产生 阶段 ， 是 从 “数据 ”跃迁 为 “ 数 
聚 ” 的 阶段 ， 智 能 个 体 通过 深度 神经 网 络 学 习 将 数据 内 化 为 知识 ， 积 累 
或 学 习 经 验 和 知识 ， 并 可 根据 各 目的 意图 与 其 他 和 贿 能 体 进行 交互 ， 修 
改 目 己 的 行为 以 适应 新 环境 。 


热点 减 量化 是 激活 数据 学 的 智能 筛选 阶段 ， 对 自 激活 阶段 产生 
的 无 效 的 、 会 对 预 判 结 采 产生 干扰 的 数据 进行 过 滤 和 筛选 ， 实 现 数据 
处 理 痪 源 的 优化 配置 ， 提 高 数据 处 理 效 率 ， 为 下 一 阶段 更 好 、 更 快 的 
决策 提供 资源 和 环境 保障 。 


群体 智能 是 激活 数据 学 的 智能 放大 阶段 ， 通 过 人 机 协作 强化 ， 突 
破 各 目的 局 限 和 在 某 种 程度 上 达到 协同 作用 ， 释 放出 超越 个 体 祝 能 的 
群体 祝 能 ， 提 升 决 策 的 准确 性 和 稳定 性 。 


云 脑 一 人 工 智 能 的 未 来 


由 于 人 类 面临 的 许多 问题 具有 不 确定 性 、 脆 弱 性 和 开放 性 ， 任 何 
智能 程度 的 机 器 都 无 法 完全 取代 人 类 。 即 使 为 人 工 状 能 系统 提供 了 足 
够 或 无 限 的 数据 资源 ， 人 类 干预 也 不 能 排除 在 智能 系统 之 外 。 人 工 入 
能 中 有 许多 问题 需要 解决 ， 比 如 如 何在 人 机 交互 系统 中 理解 人 类 语言 
的 细微 差别 和 模糊 性 ， 特 别 是 如 何 避 免 人 工 智能 技术 的 局 限 性 所 造成 
的 风险 甚至 危害 。 为 了 解决 这 些 问题 ,一些 重要 的 应 用 ， 如 工业 风险 
控制 、 医 疗 诊断 和 刑事 司法 系统 ， 必 须 引 入 人 的 监督 、 互 动 和 参与 。 


目前 人 工 智能 的 学 习 方 式 已 经 挑战 了 人 类 现 有 大 数据 处 理 能 力 的 
极限 ， 动 用 了 大 量 社会 资源 。 比 如 让 计算 机 使 用 深度 学 习 模 型 观看 了 1 
000 万 个 视频 片段 ， 才 让 计算 机 学 会 如 何在 视频 中 识别 猫 脸 ， 这 是 一 允 
办 儿 几 天 就 可 以 学 会 的 简单 的 事情 。 真 正 的 “强人 工 闹 能 * 则 能 灵活 目 
主 地 学 习 目 己 想 要 学 会 的 内 容 ， 能 独立 思考 ， 具 备 处 理 多 类 型 任务 和 
突 发 情况 的 能 力 ， 它 可 以 在 各 种 环境 中 解决 复杂 问题 ， 更 接近 人 类 的 
思维 ， 未 来 发 展 也 更 具 价值 。 


未 来 已 来 ， 这 将 是 一 个 电脑 智能 与 人 脑 智能 相互 融合 的 时 期 一 一 
云 脑 时 代 ， 这 种 融合 将 开创 一 个 全 新 的 世界 ， 在 这 个 新 世界 中 ， 虚 拟 
与 现实 、 人 类 与 机 器 的 界限 将 变 得 模糊 ， 人 类 与 计算 机 的 相互 峰 能 或 
将 永久 改变 人 类 的 命运 ， 在 一 个 万 联网 、 人 、 机 所 构成 的 未 来 世界 ， 
必 将 催生 新 的 世界 观 、 新 的 科技 秩序 与 道德 秩序 。 


人 工 知 能 浪潮 席卷 而 至 ， 谁 都 无 法 阻挡 。 


1. 1PB=250B 。 
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超 数 据 时 代 的 数据 拥堵 


5G (第 五 代 移 动 通 信 技 术 ) 、 物 联网 、 人 工 智能 等 新 一 代 信息 技 
术 与 经 济 社会 各 个 领域 快速 发 展 和 深度 融合 ， 数 字 、 文 字 、 图 像 、 音 
频 、 视 频 等 数据 形态 大 大 丰富 了 数据 种 类 ， 数 据 正 以 前 所 未 有 的 速度 
极速 增长 和 积 畦 。 这 一 深刻 变化 不 仅 促成 了 数据 量 及 处 理 能 力 遵 循 靡 
尔 定律 爆发 式 增长 ， 而 且 彻 展 帧 柳 了 数据 的 传统 形态 ， 将 人 类 社会 市 
入 了 数据 急剧 脱 胀 的 超 数 据 时代 。 


在 数据 相对 匮乏 的 小 数据 时 代 ， 数 据 的 采集 、 搜 索 等 技术 手段 的 
落后 导致 人 类 由 于 可 获得 数据 的 有 限 性 ， 难 以 对 事物 做 出 准确 的 判断 
和 预测 ， 如 同 处 在 黑暗 中 ， 辨 不 清 方 向 。 进 入 超 数 据 时 代 ， 由 数据 短 
缺 变 为 数据 过 剩 。 信 息 爆 炸 与 数据 爆炸 帝 来 海量 信息 、 垃 圾 数据 泛 
滥 ， 使 得 人 类 被 无 边界 的 数据 层 层 包 于 ， 最 终 形成 认 知 障碍 。 我 们 把 
这 种 问题 和 困境 称 为 “数据 拥 墙 ”。 


治理 数据 拥堵 是 超 数据 时 代 的 重大 议题 。 科 学 的 问题 要 用 科学 的 
办 法 来 解决 。 在 块 数据 的 思维 结构 下 ， 融 入 数据 科学 、 生 命 科 学 、 社 
会 科学 、 智 能 科学 等 前 治 科 学 理论 ， 在 不 明显 增加 成 本 的 前 提 下 尽 可 
能 地 对 垃圾 数据 、 元 余数 据 进行 热点 减 量 ， 把 超 数 据 从 * 厚 ?做 
到 “ 薄 ”， 从 “大 ”做 到 “小 *， 为 人 类 社会 请 除 认 知 障碍 ， 平 衡 利益 予 
盾 ， 提 供 可 行 方案 。 


第 一 节 
小 数据 时 代 、 大 数据 时 代 和 超 数据 时 代 


人 类 原始 时 代 早 期 所 创造 的 数 的 概念 、 数 的 方法 和 数 的 科学 ， 为 
东西 方 文化 的 发 展 提供 了 共同 的 状 茵 财富 。 人 类 对 数据 价值 的 认识 可 
以 粗略 地 分 为 三 个 阶段 :一 是 以 计算 机 为 基础 ， 退 求 数据 精细 化 的 小 
数据 时 代 ; 二 是 以 系统 性 数据 资源 为 基础 ， 深 入 挖掘 数据 关系 的 大 数 
据 时 代 ; 三 是 以 数据 大 分 炸 为 标志 ， 实 现 数据 拥堵 "治理 ”的 超 数 据 时 
LS 


(一 ) 小 数据 时 代 


数 、 数 字 和 数据 。 数 的 概念 从 萌芽 到 诞生 经 历 了 极其 漫长 的 岁 
月 ， 可 以 追溯 到 人 类 蒙昧 时 期 。 数 的 概念 始 于 人 类 在 采集 、 锤 猫 等 生 
产 活 动 中 ， 通 过 对 不 同事 物 的 比较 ， 逐 渐 认 识 到 事物 之 间 存 在 某 种 共 
通 的 特征 ， 即 在 同类 事物 中 存在 最 小 事物 个 体 ， 即 事物 的 单位 性 。 同 
时 ， 意 识 到 非 同 类 事物 之 间 数 量 的 其 他 共同 特点， 如 在 数量 上 相互 间 
可 以 构成 对 应 的 关系 ， 这 种 非 同 类 事物 所 共有 的 数量 的 抽象 性 质 ， 束 
是 数 。( 守 数字 是 数 的 具体 表现 形式 。 公 元 前 四 五 千年 ， 尼 罗 河流 域 的 
十 埃及 人 创造 了 十 进 制 象形 文 数 字 ; 远古 时 代 ， 生 活 在 中 美洲 的 玛雅 
人 创造 了 玛雅 数字 ; 黄河 流域 的 中 华 民族 创造 了 以 商 代 的 甲骨 文 数字 
和 西周 的 钟 易 数字 为 代表 的 中 国 数字 ， 到 唐 代 前 后 形成 汉字 数字 。 后 
来 ， 随 着 数学 的 发 展 ， 也 逐步 产生 了 不 同 于 文字 数字 的 符号 数字 ， 如 
罗马 数字 、 阿 拉 伯 数字 等 。“ 数 据 ” 一 词 最 是 源 于 拉丁 语 ,“ 数 ”的 概念 
是 在 “ 量 ” 的 基础 上 进一步 扩展 而 建立 起 来 的 ， 量 成 为 数据 的 基本 和 单 


位 。 在 计算 机 普及 化 的 今天 ， 数 字 化 已 成 为 现实 ， 因 此 数据 形式 已 经 
扩展 到 量 之 外 ， 数 及 可 以 转换 为 数字 的 图 形 、 表 格 、 文 字 部 可 成 为 数 
据 的 组 成 部 分 。 数 据 不 仅 限 于 表征 事物 特定 属性 ， 更 为 重要 的 是 成 为 
推演 事物 运动 、 变 化 规律 的 依据 和 基础 。 


小 数据 时 代 是 以 经 验 科学 为 基础 判断 数据 价值 的 时 代 。 早 
在 数 干 年 以 前 ， 人 类 就 开始 计量 数据 、 运 用 数据 和 分 析 数 据 。 人 类 有 
记载 的 最 早 的 计数 发 生 在 公元 前 8000 年 。《 易 经 : 系 辞 下 》 有 记 
载 : “上 十 结 绳 而 治 ， 后 世 圣 人 吻 之 以 书 契 。”《 易 九 家 言 》 记 载 
为 :“ 事 大 ， 大 结 其 绳 ; 事 小 ， 小 结 其 绳 。 结 之 多 少 ， 随 物 众 嘉 。" 在 
西方 ， 目 对 经 时 代 开 始 ， 政 府 就 通过 人 人 口 普查 建立 大 型 的 国民 数据 
库 。 同 样 ， 在 古代 波斯 也 有 结 强 记 事 的 记载 。 据 说 波斯 王 大 流 士 给 他 
的 指挥 早 一 根 打 了 60 个 结 的 绳子 ， 并 对 他 们 说 :“ 爱 奥 尼 亚 的 男子 汉 
们 ， 从 你 们 看 见 我 出 征 斯 基 泰 那天 起 ， 每 天 解 开 绳子 上 的 一 个 结 ， 到 
解 完 最 后 一 个 结 那天 ， 要 是 我 没 回 来 ， 束 收拾 你 们 的 东西 ， 目 己 开 骨 
回去 。” 从 古人 结 绳 记事 起 ， 人 类 数 十 万 年 依靠 数量 概念 和 数量 科学 推 
动 着 社会 经 济 与 人 类 目 身 的 发 展 。 人 类 的 先知 特价 目 身 经 验 和 观察 所 
得 ， 发 现 了 数据 对 于 目 然 界 的 物质 生产 、 社 会 界 的 精神 生产 及 人 类 目 
号 的 目 我 生产 、 存 在 与 发 展 的 重要 价值 。 


小 数据 时 代 ， 人 类 收集 、 挖 气 和 使 用 样本 数据 的 能 力 处 于 
较 低 水 平 ， 也 没有 收集 和 处 理 大 规模 数据 的 能 力 ， 就 利用 整体 与 部 
分 之 间 的 关系 发 明 一 种 方法 来 用 部 分 的 数据 证 实 尽 可 能 重大 的 发 现 ， 
这 束 是 统计 学 的 由 来 。 这 种 方法 利用 了 整体 与 部 分 的 关系 ， 部 分 具有 
整体 的 一 些 特 征 ， 可 以 从 部 分 认识 整体 。 在 统计 大 规模 数据 时 ， 人 们 
会 选取 其 中 的 一 部 分 作为 样本 ， 对 样本 进行 分 析 ， 从 而 达到 对 整体 数 
据 的 推算 ， 这 就 是 采样 分 析 法 。 后 来 ， 人 们 意识 到 采集 的 样本 并 不 是 
越 多 越 好 ， 而 是 随机 性 与 精确 性 成 正比 ， 样 本 选择 的 随机 性 比 样本 数 
量 更 重要 。 从 此 ， 随 机 采样 变 得 非常 重要 ， 成 为 现代 测绘 和 现代 测量 
领域 的 主心骨 ， 它 可 以 通过 少量 的 随机 样本 ， 对 整体 数据 进行 推算 和 


统计 ， 而 且 拥有 很 高 的 精确 率 ， 这 无 疑 是 在 小 数据 时 代 不 可 收集 和 分 
析 全 部 数据 的 情况 下 所 能 达到 的 最 完美 的 结果 。( 人 由 ) 


人 口 普查 是 一 种 国家 层次 的 重要 的 “数据 指标 行动 ”。 据 有 关 资 料 
记载 ， 中 国 是 世界 上 最 早 统计 人 口 的 国家 之 一 。 相 传 最 早 在 公元 前 210 
年 前 的 夏 蜗 时 代 就 有 过 人 口 统计 。 中 国 古代 封建 王朝 设立 “ 户 部 ”， 户 
部 主管 户口 、 赋 税 等 ， 和 是 负责 统计 人 口 的 机 构 。 西 周 的 人 口 统计 不 但 
有 公开 的 人 口 调查 ， 而 且 有 专 司 人 口 统计 的 官吏 ， 称 为 * 司 民 ”。《 周 
已 - 秋 官 》 载 :“ 司 民 掌 登 万 民 之 数 。 目 生 次 以上， 宵 书 于 版 。 辨 其 中 
国 ,与 其 都 部， 及 其 郊野 ， 异 其 男女 ， 风 登 下 其 死生 。” 这 里 ， 我 们 不 
难看 出 ， 周 朝 时 人 口 普查 束 已 经 初步 设立 了 年 龄 、“ 国 别 *、 城 乡 、 性 
别 、 生 死 等 人 口 的 重要 指标 。 东 汉 时 期 的 户口 调查 进一步 制度 化 ， 称 
为 “ 案 比 ”"， 即 案 验 、 比 较 ， 在 每 年 的 八 月 进行 。 中 国 魏 普 时 期 呈 甫 识 
闭 的 《帝王 世纪 》 记 载 :“ 轴 平 水土 ， 还 为 九州 ， 今 《 责 贡 少 是 也 。 征 
以 其 时 九州 之 地 ， 几 二 千 四 百 三 十 万 八 干 二 十 四 硕 ， 定 明 者 九 百 三 十 
万 信和 二 二 网 硕 ;， 水 是 性 秆 于 于 自力 十 轩 民 日 和 三 自 下 二 全 困 三 
于 九 百 二 十 三 人 。?” 责 朝 宋 范 轮 的 《后 汉 书 》 与 宋 元 之 际 马 端 临 的 《 文 
献 通 考 》 ， 都 有 同样 记载 。 有 的 统计 学 者 认为 这 是 “我 国 最 早 的 统计 数 
字 质 料 ”。 在 数 千 年 的 农业 社会 中 ， 人 类 不 断 探 索 新 的 科学 技术 ， 但 是 
对 统计 数据 的 收集 、 挖 气 和 使 用 始终 处 于 较 低 水 平 。 


计算 机 的 诞生 和 发 展 促使 小 数据 时 代 的 分 析 方 法 由 经 验 化 
向 精细 化 转变 。 在 计算 机 出 现 之 前 ， 人 类 的 经 济 和 政治 生活 根本 就 
不 是 以 数据 为 基础 的 ， 数 据 仅仅 作为 一 种 计量 单位 而 存在 。 目 人 类 第 
一 台 计 算 机 ENIAC 〈 挨 尼 阿 元 ) 问世 以 来 ， 以 计算 机 技术 为 主导 的 信 
轧 化 、 数 字 化 时 代 的 不 断 发 展 ， 为 数据 收集 、 人 整理 、 分 析 和 使 用 提供 
了 前 所 未 有 的 便利 :数据 收集 更 加 便捷 ， 数 据 整理 更 加 科学 ， 数 据 分 
析 更 加 深入 ， 数 据 使 用 更 加 广泛 。 但 是 ， 这 一 阶段 计算 机 技术 的 主要 
应 用 范围 局 限 在 数值 领域 ， 退 求 数 据 的 丰富 性 和 精细 化 。 上 自 20 世 纪 90 
年 代 起 ， 网 络 技术 、 数 码 技术 和 电子 信息 系统 的 发 展 ， 推 动 计算 机 技 


术 从 数值 领域 发 展 到 非 数 值 领域 。 数 据 技术 经 历 了 一 次 草 命 性 的 变 
化 ， 多 媒体 技术 将 文字 、 图 形 、 影 像 、 首 啊 和 动画 技术 融 为 一 体 ， 数 
据 的 生产 、 复 制 和 存储 能 力 急 缀 增强 。 世 界 各 国 相 继 实 施 和 推进 数字 
化 战略 ， 数 子 城 市 、 数 字 社 区 和 数字 家 星 不 断 涌现 。 从 人 磁盘、 光 副 到 
互联 网 、 传 统 媒体 数字 化 转型 ， 以 手机 珊 动 的 新 型 移动 传输 方式 的 发 
展 ， 大 大 提升 了 大 规模 数据 传输 速度 。 小 数据 时 代 逐 渐 问 大 数据 时 代 
过 波 。 


(二 ) 大 数据 时 代 


美国 公克 尔 : 考 克 斯 和 戴 维 : 埃 尔 斯 沃 思 被 认为 是 最 早 提 出 “大 数 
据 ” 概 念 的 工程 师 。1997 年 10 月 ， 迈 殉 尔 - 考 殉 斯 和 戴 维 - 埃 尔 斯 沃 思 在 
第 八 届 美国 电气 电子 工程 师 协 会 (IEEE) 关于 可 视 化 的 会 议论 文集 中 
发 表 了 题 为 “为 外 存 模型 可 视 化 而 应 用 控制 程序 请 求 页 面 调 度 ” 的 文 
章 。“ 可 视 化 对 计算 机 系统 提出 了 一 个 有 趣 的 挑战 : 通 芝 情况 下 数据 集 
相当 大 ， 耗 尽 了 主 存储 器 、 本 地 人 磁 副 甚至 远程 磁 副 的 存储 容量 。 我 们 
将 这 个 问题 称 为 ‘大 数据 '。 当 主 存储 右 无 法 容纳 数据 集 ， 或 者 当 本 地 
人 磁盘 都 无 法 容纳 数据 集 的 时 候 ， 最 常用 的 解决 办 法 束 古 获取 更 多 的 资 
源 。” 该 文 是 在 美国 计算 机 学 会 的 数字 图 书 馅 中 第 一 篇 使 用 “大 数据 ”这 
一 术语 的 文章 。 


2000 一 2010 年 被 视 为 “大 数据 时 代 ” 黄 基 的 10 年 。 中 国 互 联网 数据 
中 心 估计 ，2002 年 世界 产生 了 5EB (四 新 数据 ，2006 年 产生 了 161EB 新 
数据 ，2006 一 2010 年 ， 每 年 为 数字 宇宙 所 增加 的 信息 将 是 2006 年 的 6 倍 
多 ， 达 到 988EB， 或 者 说 每 18 个 月 就 翻 一 秋 。 实 际 上 ， 据 2010 年 和 
2011 年 同 项 研究 所 发 布 的 信息 ， 每 年 全 球 所 创造 的 数字 化 数据 总 量 超 
过 了 这 个 预测 ，2010 年 达到 了 1 200EB，2011 年 增长 到 了 1 800EB。 


2012 年 ， 全 球 数据 量 已 经 从 TB 时 级 别 跃升 到 PB、EB 力 至 ZB ( 轩 
级 别 。 国 际 数 据 公 司 (IDC) 的 研究 结果 表明 ，2008 年 全 球 产 生 的 数 
据 量 为 0.49ZB，2009 年 的 数据 量 为 0.8ZB，2010 年 的 数据 量 为 1.2ZB， 
2011 年 的 数据 量 更 是 高 达 1.82ZB， 相 当 于 全 球 每 人 至 少 产生 200GB (时 
的 数据 。 到 2012 年 为 止 ， 人 类 生产 的 所 有 印刷 材料 的 数据 量 是 
200PB， 全 人 类 历史 上 说 过 的 所 有 话 的 数据 量 大 约 是 5EB。 美 国 IBM 

(国际 商用 机 器 公司 ) 的 研究 称 ， 在 整个 人 类 文明 所 获得 的 全 部 数据 
中 ， 有 90% 是 过 去 两 年 内 产生 的 。 到 2020 年 ， 全 世界 所 产生 的 数据 规 
模 将 达到 今天 的 44 倍 。 经 过 10 年 的 发 展 ， 新 的 数据 标准 、 规 则 更 加 成 
熟 ， 无 线 通信 新 技术 在 企业 生产 、 市 场 流通 与 大 众 消 费 领域 日 益 扩 
大 。 在 云 计算 普及 化 及 信息 环境 更 加 完善 的 前 提 下 ， 越 来 越 多 的 企 
业 、 社 区 和 家 庭 使 用 更 高 级 别 的 数据 标准 ， 各 种 层次 和 各 种 功能 的 数 
据 中 心 如 雨后春笋 般 应 运 而 生 ， 数 字 城 市 、 智 能 网 络 和 数据 系统 不 断 
浦 现 。 


大 数据 时 代 与 小 数据 时 代 的 对 比 见 表 1-1。 与 小 数据 时 代 的 数据 观 
重视 数据 的 因果 关系 有 所 不 同 ， 在 大 数据 时 代 ， 数 据 处 理 变 得 简单 快 
捷 。 利 用 所 有 的 数据 ， 而 不 再 仅仅 依靠 一 小 部 分 ， 并 且 人 允许 所 有 数据 
不 精确 性 的 存在 ,，“ 不 再 渴求 数据 的 因果 关系 ， 而 去 关注 数据 的 相关 关 
系 ， 不 需要 知道 为 什么 ， 只 需要 知道 是 什么 x 导 | 。“ 思 维 的 转变 颠覆 了 
人 类 千 百 年 的 思维 习惯 ， 全 新 挑战 了 人 类 的 认 知 和 与 世界 交流 的 方 


式 。 它 们 是 相互 联系 和 相互 作用 的 。” (党 ) 
表 1-1 大 数据 时 代 与 小 数据 时 代 的 对 比 


对 比 内 容 小 数据 时 代 大 数据 时 代 


数据 量 数据 量 小 ， 以 MBS、GB、TB | 数据 量 大 ， 以 PB 、EB 、ZB 为 存储 
”| 为 存储 单位 单位 


数据 库 结构 化 数据 库存 储 数据 结构 化 及 非 结构 化 数据 库存 储 数据 


存储 设备 | 数据 存储 设备 价格 高 昌 数据 存储 设备 价格 相对 低廉 
数据 来 源 “| 数据 来 源 简单 数据 来 源 繁多 复杂 


产生 速度 | 数据 产生 、 变 化 速度 慢 数据 产生 、 变 化 速度 快 
数据 结构 “| 数据 结构 简单 数据 结构 多 样 


G@1MB=210B 。 


全 部 数据 取代 随机 样本 。 在 信息 处 理 能 力 差 的 时 代 ， 随 机 样本 
让 大 量 数据 的 分 析 成 为 可 能 ， 但 当 完 整 的 数码 歌曲 被 截取 成 多 个 采样 
的 文件 时 ， 很 多 信息 也 会 随 之 丢失 。 因 此 ， 只 有 拥有 全 部 的 数据 或 几 
乎 全 部 的 数据 ， 人 们 才能 进行 新 的 分 析 ， 才 能 正确 地 考察 细 证 ， 才 能 
用 大 数据 在 任何 细微 的 层面 论证 新 的 假设 。 售 恩 伯 格 曾 说 : “在 某 些 特 
定 的 状态 下 ， 我 们 还 是 可 以 使 用 样本 分 析 法 ， 但 它 已 经 不 古 分 析 数 据 
的 主要 方式 。 在 未 来 ， 我 们 会 完全 抛弃 不 再 使 用 。” 所 统计 抽样 方法 
适用 于 技术 受 限 的 时 期 ， 是 为 解决 一 些 特定 问题 而 存在 的 。 如 今 ， 技 
术 环 境 已 大 大 改善 ， 在 大 数据 时 代 进 行 抽样 分 析 束 好 比 在 汽车 时 代 骑 
马 一 样 。 


混杂 性 取代 精确 性 。 在 小 数据 时 代 ， 为 了 保证 质量 ， 人 们 往往 
把 减少 错误 作为 最 基本 、 最 重要 的 要 求 。 那 是 因为 收集 的 信息 是 有 限 
的 ， 细 微 的 错误 会 因数 据 量 小 而 被 放大 ， 甚 至 会 影响 整个 结 采 的 准确 
性 。 在 当今 的 信息 时 代 ， 我 们 已 经 从 依赖 清晰 、 准 确 的 领域 脱身 ， 能 
够 容 怒 模糊 和 不 确定 性 的 出 现 。 只 要 一 个 事物 有 一 个 更 完整 的 概念 ， 
我 们 束 能 接受 模糊 和 不 确定 性 。 好 比 印象 派 的 画 风 ， 近 看 画 中 每 一 笔 


都 感觉 很 矶 ， 但 后 退 一 步 束 能 发 现 这 幅 作 品 的 伟大 ， 因 为 整 幅 画 的 整 
体 思 路 在 后 退 一 步 的 时 候 束 能 显现 出 来 。 也 就 是 说 ， 当 视野 局 限 在 可 
以 分 析 的 数据 和 能 够 确定 的 数据 上 时 ， 我 们 对 世界 的 整体 理解 可 能 会 
发 生 错 误 和 偏差 ， 不 但 会 涪 失 尽力 收集 数据 的 动力 ， 而 且 会 失去 从 不 
同 角 度 观察 事物 的 权利 。“ 大 数据 要 求 我 们 必须 能 够 接受 混乱 和 不 确定 
一 旦 我 们 承认 甚至 拥护 这 个 事实 的 话 ， 离 真相 束 义 近 了 一 步 。” 


相关 关系 取代 因果 关系 。 在 小 数据 时 代 ， 因 为 数据 很 少 且 收 集 
数据 费时 费力 ， 所 以 相关 关系 的 应 用 也 很 少 。 但 在 大 数据 背景 下 ， 我 
们 能 够 更 便捷 、 更 容易 和 更 清楚 地 分 析 事 物 ， 能 够 量化 两 个 数据 之 间 
的 数理 关系 ， 因 此 可 以 更 好 地 运用 数据 的 相关 关系 。 比 如 谷歌 预测 的 
流感 趋势 是 通过 人 们 在 谷歌 搜索 的 流感 词 条 确定 的 ， 搜 索 多 的 特定 地 
区 被 认为 有 更 多 的 人 患 了 流感 。 相 反 ， 个 人 鞋 码 与 壮 福 指数 根本 扯 不 
上 任何 关系 。“ 在 大 数据 时 代 ， 我 们 只 需要 知道 ‘是 什么 '"， 不 需要 知 
道 ' 为 什么 。 不 必 寻 求 现象 背后 的 原因 。” 人 四 这 个 时 代 要 释放 出 的 巨 
大 价值 是 通 往 未 来 的 必然 改变 ， 使 我 们 选择 大 数据 的 理念 和 方法 不 再 
古 一 种 权衡 。 大 数据 的 趋势 就 古越 来 越 多 的 事物 痢 以 数据 的 形式 存 


综合 各 方 对 大 数据 时 代 的 分 析 ， 我 们 认为 大 数据 时 代 具 有 以 下 5 个 
典型 特征 。 第 一 个 特征 征 数据 量 大 。 大 数据 的 起 始 计量 单位 至 少 是 
PB、EB 或 者 ZB。 第 二 个 特征 是 数据 类 型 多 样 化 。 大 数据 时 代 的 数据 
类 型 和 表现 形式 多 样 ， 包 括 调 查 数 据 、 网 络 日 志 、 首 频 、 视 频 、 图 片 
和 地 理 位 置信 息 等 ， 数 据 与 数据 之 间 的 联系 被 数据 的 多 样 性 冲淡 ， 多 
种 类 型 的 数据 对 数据 的 处 理 能 力 提 出 了 更 高 的 要 求 。 第 三 个 特征 是 数 
据 价 值 密度 相对 较 低 。 随 着 物 联 网 的 广泛 应 用 ， 信 息 感 知 无 处 不 在 ， 
言 轧 海量， 但 价值 密度 较 低 。 如 何 通过 强大 的 机 需 算 法 更 迅速 地 完成 
数据 的 价值 “提纯 ”， 是 大 数据 时 代 玛 待 解决 的 难题 。 第 四 个 特征 是 处 
理 速度 快 。 在 数据 收集 速度 加 快 的 同时 ， 数 据 夺 命 明 显 缩短 ， 对 数据 


挖掘 的 时 效 性 有 要求 日 益 提 高 。 这 征 大 数据 区 分 于 传统 数据 挖掘 最 显 涛 
的 特征 。 第 五 个 特征 是 关键 数据 仍 是 稀缺 < 资源”。 由 于 网 络 、 视 频 、 
扫描 等 数据 采集 工具 不 断 丰 富 ， 应 用 范围 日 益 扩 大 ， 流 量 数据 十 分 庞 
大 ， 并 且 占 据 了 大 量 的 人 力 、 物 力 和 财力 。 数 据 量 的 增加 ， 并 没有 满 
足 人 们 对 于 数据 质量 的 有 要求， 对 人 研究 有 用 的 关键 数据 依然 稀缺 。 


(三 ) 超 数 据 时 代 


5G、 物 联网 、 人 工 知 能、 云 计算 等 技术 的 快速 发 展 ， 以 及 视频 监 
控 、 智 能 终端 、 应 用 商店 的 快速 普及 ， 光 学 观测 、 光 学 监控 、 健 康 医 
护 、 传 感 器 和 数据 服务 公司 及 供应 链 系统 等 都 产生 了 海量 、 复 杂 、 多 
元 的 数据 ， 对 这 些 数据 更 恰当 的 摘 述 应 该 是 “无 限 ” 的 数据 ， 数 据 都 是 
源源 不 断 生 成 的 ， 我 们 将 这 种 数据 称 为 < 超 数据 ”。 超 数据 是 大 数据 发 
展 的 后 半 场 ， 征 大 数据 时 代 全 面 采 集 、 人 存储 、 积 素 的 必然 结 有 末 。 随 着 
时 间 的 推移 ， 超 数据 的 数据 体 量 还 在 不 断 膨胀 ， 不 论 人 类 是 否 愿 意 ， 
都 将 过 入 超 数 据 时 代 。 


“各 种 经 济 时 代 的 区 别 ， 不 在 于 生产 什么 ， 而 在 于 怎样 生产 ， 用 什 
么 劳动 资料 生产 。 劳 动 资料 不 仅 是 人 类 劳动 力 发 展 的 测量 器 ， 而 且 是 
劳动 借以 进行 的 社会 关系 的 指示 器 。”( 归 马克 思 按 照 劳动 资料 或 劳动 
工具 的 标准 ， 把 人 类 社会 发 展 阶段 分 别称 为 石器 时 代 、 青 铜 时 代 、 铁 
器 时 代 、 大 机 器 时 代 。 马 克 思 没有 看 到 信息 时 代 的 到 来 ， 但 当 信息 技 
术 成 为 非常 重要 的 生产 资料 或 者 生产 工具 的 时 候 ， 我 们 还 是 依据 马克 
思 的 理论 ， 称 这 个 时 代为 信息 时 代 。 如 今 超 数 据 出 现 ， 作 为 新 的 生产 
资料 ， 不 断 体现 出 其 在 生产 活动 中 的 巨大 作用 ， 我 们 自然 而 然 地 应 该 
去 思考 超 数据 时 代 的 到 来 。“ 从 事物 的 本 性 可 以 得 出 ， 人 的 劳动 能 力 的 
发 展 特别 表现 在 劳动 资料 或 者 说 生产 工具 的 发 展 上 。” 技工 具 是 生产 
力 发 展 水 平 的 重要 标准 ， 而 生产 力 发 展 水 平 所 决定 的 生产 关系 则 是 一 


个 时 代 的 本 质 特 征 。 超 数据 是 作为 一 种 新 的 生产 资料 出 现 的 ， 对 生产 
力 的 发 展 有 着 直接 的 推动 作用 ， 这 也 是 超 数据 时 代 会 被 称 为 一 个 时 代 
的 原因 。 超 数据 时 代 ， 人 们 的 思维 方式 也 发 生 了 巨大 的 变 单 ， 总 体 三 
现 预 测 性 趋势 、 模 糊 性 趋势 和 复杂 性 趋势 。 


预测 性 趋势 : 用 数据 看 未 来 。 超 数据 时 代 带 给 我 们 巨 量 的 数 
据 和 先进 的 数据 分 析 技 术 ， 以 及 二 者 的 结合 带 来 的 我 们 最 为 关心 的 一 
项 能 预测 。 大 量 的 传 感 名 将 我 们 号 边 的 一 切 物体 纳入 物 联网 ， 
使 一 切 事 物 的 动态 、 变 化 都 变 成 大 量 的 数据 流 不 断 进 入 负责 监控 的 计 
算 机 。 基 于 云 计 算 技术 的 强大 数据 分 析 能 力 则 将 对 这 些 数据 进行 分 析 
处 理 ， 得 出 的 结果 有 助 于 人 类 把 握 事 物 现时 的 情况 ， 同 时 预测 其 下 一 
步 的 发 展 。 超 数据 不 但 可 以 预测 事物 的 发 展 状况 ， 而 且 可 以 预测 人 类 
行为 。 艾 伯 特 - 拉 斯 洛 : 巴 拉巴 西 教授 在 《爆发 》 一 书 中 表示 ， 人 类 行 
为 的 93% 是 可 以 预测 的 。 人 过) 超 数据 时 代 的 数据 监测 可 以 将 人 们 的 行为 
转化 为 数据 ， 然 后 通过 人 类 行为 预测 模型 对 其 进行 处 理 ， 丈 可 以 对 人 
们 的 行为 进行 预测 。 但 是 预测 并 非 预言 ， 超 数据 能 做 到 的 是 对 短期 内 
影响 因素 较 少 的 事物 的 发 展 进行 预测 ， 这 种 预测 有 着 极 大 的 限制 ， 并 
非 腾 想 中 的 无 所 不 能 、 无 所 不 知 。 尽 管 如 此 ， 超 数据 的 预测 能 力 还 是 
为 人 们 看 疝 未 来 开 了 一 局 窗 。 在 超 数 据 的 帮助 下 ， 人 和 人们 不 再 是 措 着 石 
头 过 河 ， 而 是 可 以 站 得 高 一 些 ， 稍 稍 看 清 前 方 的 路 了 。 这 种 转变 对 人 
类 来 说 是 非常 重 要 且 意 义 重 大 的 。 人 们 对 于 未 来 不 再 是 簿 得 无 措 、 一 
无 所 知 的 ， 而 是 可 以 通过 超 数据 的 能 力 对 未 来 进行 推出 ， 这 是 人 类 思 
维 方 式 变 章 的 一 个 大 方 同 。 


模糊 性 趋势 : 用 概率 来 表达 。 当 “精确 "不 能 解决 全 部 问题 时 ， 
我 们 就 需要 换 一 个 角度 ， 考 虑 试 试 “模糊 ”这 条 道路 行 不 行 得 通 。1965 
年 类 国 数学 家 扎 德 发 表 了 论文 《模糊 集合 》， 一 门 叫 作 模糊 数学 的 学 
科 诞 生 ， 同 经 典 数 学 不 同 ， 它 十 研究 模糊 现象 的 一 门 数学 。 经 典 数 学 
以 精确 为 准 ， 面 对 许多 不 能 精确 定义 的 事物 ， 经 典 数 学 很 难 对 其 进行 
人 研究， 这 束 催 生 了 模糊 数学 。 模 糊 数 学 的 产生 说 明 世 界 上 的 许多 事物 


征 不 能 用 精确 来 解决 的 ， 过 去 科技 不 发 达 ， 认 为 是 不 够 精确 ， 现 在 发 
现 事 物 本 号 束 存在 模糊 性 ， 用 精确 的 手段 目 然 不 能 对 其 进行 解释 和 处 
理 。 在 超 数据 时 代 ， 我 们 发 现 了 更 多 的 模糊 性 事物 ， 我 们 的 思维 方式 
也 必须 从 过 去 的 精确 性 思维 方式 同 模 糊 性 思维 方式 转变 ， 学 会 用 概率 
和 数据 说 话 ， 这 样 我 们 才能 更 好 地 适应 和 推动 科技 的 进步 与 社会 的 发 
展 。 另 外 ， 数 据 的 模糊 性 还 来 目 数据 的 生长 性 ， 超 数据 时 代 大 多 数 的 
数据 不 是 静态 的 ， 而 是 不 断 生 成 、 不 断 变化 的 动态 数据 ， 对 于 这 种 有 具 
备 生长 性 的 数据 ， 很 难 做 到 精确 地 、 稍 单 地 定性 ， 所 以 需要 我 们 用 模 
糊 的 和 概率 的 数据 来 表达 。 因 此 ， 超 数据 时 代 ， 接 受 了 错误 和 混杂 ， 
认识 到 数据 的 动态 变化 ， 我 们 的 思维 方式 必 将 展现 出 一 种 模糊 性 的 变 
化 趋势 。 


复杂 性 趋势 ， 用 数据 来 跨 界 。 超 数据 时 代 的 研究 范式 打破 了 
传统 的 机 械 思 维和 还 原 方法 论 的 统治 ， 同 复 洒 性 科学 研究 方法 类 似 ， 
可 以 说 超 数 据 时 代 的 研究 方法 本 和 映 束 是 一 种 复 洒 性 科学 ， 而 这 种 复杂 
性 科学 也 代表 了 超 数据 时 代 人 类 思维 方式 向 复杂 性 发 展 的 趋势 。 复 杂 
性 科学 将 一 切 对 象 都 看 作 有 生命 、 会 演化 的 系统 ， 几 个 最 简单 的 要 素 
通过 非 线 性 的 相互 作用 ， 也 有 可 能 涌现 出 复 洒 的 行为 ， 我 们 不 能 根据 
简单 的 因果 关系 推导 系统 的 行为 。 超 数据 时 代 的 研究 范式 恰恰 吏 是 通 
过 数据 之 间 的 关系 研究 事物 之 间 非 线性 的 相互 作用 。 超 数据 时 代 对 复 
杂 性 科学 将 起 到 巨大 的 推进 作用 ， 也 会 形成 人 类 思维 方式 的 复杂 性 变 
化 趋势 ， 人 们 眼中 的 世界 将 不 再 古人 简单 的 、 可 以 被 分 割 的 一 个 个 独立 
的 个 体 ， 而 是 互相 有 联系 的 复杂 的 系统 ， 而 且 这 个 复业 的 系统 十 动态 
的 ， 时 刻 都 在 变化 。 过 去 的 数据 是 某 个 时 间 采 集 到 的 静态 数据 ， 这 种 
数据 是 静态 的 、 有 时 请 性 的 ， 超 数据 时 代 的 数据 都 是 不 断 变化 的 、 随 
时 随地 都 可 以 采集 到 的 动态 数据 ， 可 以 直接 反映 当前 的 动态 和 行为 。 
超 数 据 时 代 的 数据 在 采集 、 存 储 、 传 输 、 处 理 和 使 用 中 不 断 产 生 和 获 
得 最 新 数据 ， 这 种 动态 的 技术 手段 对 人 们 的 思维 方式 也 将 产生 巨大 的 
影响 。 在 人 们 的 思维 领域 , “现在 ”的 概念 将 被 放大 ,“ 现 在 ? 束 将 是 现 


在 ， 不 是 一 天 前 ， 不 是 一 小 时 前 ， 甚 至 不 是 一 分 钟 前 ， 而 是 说 话 的 此 
时 此 刻 。 


超 数 据 时 代 还 会 将 事物 的 变化 放大 ， 使 人 们 认识 到 世界 上 没有 什 
么 是 一 成 不 变 的 ， 要 用 动态 的 眼光 看 待 世界 。 恩 格 斯 指出 : “ 当 我 们 深 
思 熟 虑 地 考察 自然 界 或 人 类 历史 或 我 们 自己 的 精神 活动 的 时 候 ， 首 先 
呈现 在 我 们 眼前 的 ， 是 一 幅 由 种 种 联系 和 相互 作用 无 穷 无 尽 地 交织 起 
来 的 画面 。> 汪 马克 思 和 恩格斯 认为 这 个 世界 的 一 切 都 是 联系 和 发 展 
的 ， 而 事物 之 间 的 联系 则 是 通过 中介” 进行 的 ， 那 么 在 超 数据 时 代 ， 
数据 是 不 是 世界 联系 的 重要 “中 介 " 之 一 ， 一 个 容易 被 发 现 、 容 易 被 捕 
提 的 “中 介 ”， 我 们 通过 这 个 中介” 可 以 研究 许多 之 前 研究 不 了 的 事物 
间 的 关系 ? 另外 ， 数 据 的 动态 变化 监测 能 力 能 够 降低 我 们 研究 世界 的 
发 展 变化 的 难度 。 从 马克 思 的 理论 我 们 可 以 看 出 ， 超 数据 时 代 的 研究 
正在 朝 着 正确 的 方向 进发 ， 不 断 将 这 个 世界 清晰 地 还 原 到 人 脑 之 中 。 
在 超 数 据 时 代 ， 复 杂 性 的 、 动 态 的 思维 方式 将 被 树立 ， 人 们 的 思维 方 
式 也 将 呈现 复杂 性 的 变化 趋势 。 
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第 二 节 
奇 扣 来临， 数据 大 爆炸 


(一 ) 数据 连接 型 社会 : 数据 量化 世界 


超 数据 时 代 ，5G、 物 联网 、 人 工 智能 等 狐 技 术 、 痢 工具 和 新 应 用 
的 不 断 发 展 与 应 用 ， 知 识 和 信息 的 制造 、 组 织 、 发 布 与 交流 形式 似乎 
每 过 一 段 时 间 束 会 被 改写 ， 私 人 生活 和 公共 生活 正在 说 重 塑 ， 一切 宜 
可 量化 ， 万物 害 为 数据 。 数 据 驱 动 厦 人 们 的 日 党 生活， 改变 着 政治 决 
策 、 公 共和 与 论 、 政 府 监管 和 社会 治理 方式 ， 数 据 连接 型 社会 搜 育 而 
让 。 


普 韦 泛 在 的 信息 网 络 体系 沁 是 构建 数据 连接 型 社会 的 基 
础 。 继 美国 的 “智慧 地 球 ”、 日 本 的 <U-Japanz( 尘 、 韩 国 的 <U-Korea>( 四 
、 欧 盟 的 “ 物 联网 行动 计划 ”后 ， 中 国 提 出 “感知 中 国 ” 的 信息 技术 发 展 
战略 。( 注 感知 中 国 " 战 略 的 核心 是 抓 住 信息 技术 跃 变 的 机 遇 ， 提 升 自 
主创 新 和 可 持续 发 展 能 力 ， 使 我 国 全 面 进入 信息 社会 。 信 息 成 为 中 国 
经 济 和 社会 发 展 最 重要 的 资源 ， 中 国 社会 信息 化 总 体 上 接近 发 达 国 
家 。 信 息 社会 的 发 展 可 粗略 地 分 为 e 社 会 和 u 社 会 ，e 社 会 是 信息 社会 的 
初级 阶段 ，u 社 会 是 信息 社会 的 高 级 阶段 ( 见 表 1-2) 。2020 年 以 前 我 
国 要 为 迈 向 信息 社会 商定 坚实 的 基础 ， 称 为 e 社 会 ，2020 年 以 后 的 目标 
是 向 u 社 会 过 渡 。u 社 会 也 就 是 我 们 所 畅想 的 数据 连接 型 社会 ， 其 构建 
关键 在 于 普 惠 泛 在 的 信息 网 络 体系 的 建设 。 普 惠 泛 在 的 信息 网 络 体系 
包含 6 个 方面 的 内 容 ， 一 是 支撑 网 络 、 具 有 变革 性 的 器 件 与 系统 ， 二 是 
面向 大 众 、 普 及 全 民 的 网 络 系统 ， 三 是 安全 可 信 、 个 性 化 的 网 络 服务 
技术 ， 四 是 支持 产业 升级 和 发 展 的 数据 知识 产业 ， 五 是 网 络 科学 与 新 


的 信息 科学 ， 六 是 国家 与 社会 信息 网 络 安全 体系 。 普 惠 泛 在 的 信息 网 
络 体系 实现 了 与 空间 、 地 面 、 搂 入 等 网 络 的 全 面 融合 ， 实 现 了 人 与 
人 、 机 顺 与 机 右 、 人 与 机 器 之 间 任 何 时 间 、 任 何 地 点 的 通信 联络 ， 网 
络 通信 无 所 不 在 且 有 可 靠 的 服务 保证 ， 通 信 成 本 极 低 ， 为 构建 数据 连 


接 型 社会 商定 了 良好 的 网 络 基础 ( 见 表 1-3) 。 
表 1-2 信息 社会 的 初级 阶段 (e 社 会 ) 和 高 级 阶段 (u 社 会 ) 


El 2020 年 (e 社 会 ) | 2050 年 (u 社 会 ) 


电脑 拥有 量 超过 4 亿 台 ，| 电脑 拥有 量 超过 8 亿 人 台 ， 
电脑 普及 率 达到 28% 电脑 普及 率 超 过 50% 


网 络 普及 网 民 数 超过 5 亿 ( 含 手机 | 网 民 数 超过 12 亿 ( 含 手 
上 网 )， 网 络 普 及 率 超过 | 机 上 网 )， 网 络 普及 率 超 
35% 过 80% 


很 多 人 会 用 电脑 绝 大 多 数 人 会 用 电脑 


| “| 2020 年 (e 社 会 ) 。 | 2050 年 (u 社 会 ) 


选择 空间 较 大 ， 可 以 切换 | 选择 空间 较 大 ， 可 随意 
供应 商 切换 供应 商 


创造 自由 遵循 简单 易 用 的 标准 ， 较 | 信息 消费 者 与 生产 者 融 
少 需 要 许可 合 ， 可 自由 创造 


人 人 、 人 机 、| 无 线 通信 技术 迅速 发 展 ，| 三 个 世界 实现 无 颖 、 双 
机 机 通信 通信 地 点 基本 不 受 限 制 ，| 向 连接 ， 物 物 通信 量 远 
传 感 带 网 络 开始 出 现 远 超过 人 人 通信 和 量 


高 效 可 信 可 信和 度 高 ， 信 息 孤 岛 少 ，| 信息 处 理 能 力 几 乎 不 受 
用 户 可 见效 率 高 限制 ， 量 子 密码 使 信息 
系统 可 信 


功用 灵活 易 用 的 功用 服务 资源 较 丰 | 机 顺 理 解 语义 ， 按 语义 
富 ， 互 联网 成 为 主要 信息 | 搜索 和 机 融 翻 译 等 智能 
来 源 技术 流行 ， 数 据 智能 化 

成 为 巨大 产业 


全 民 参 与 ， 电 脑 走 下 高 科 | 开放 标准 占 主导 地 位 ， 
技 神 坛 ， 开放 标准 开始 | 知识 产权 和 专利 保护 不 
流行 再 是 创新 的 障碍 


电脑 网 受到 政府 监管 , 个 | 政府 的 监管 和 个 人 上 自由 
人 隐私 开始 受到 重视 和 谐 平 和 ， 个 人 隐私 受 
到 高 度 保护 


资料 来 源 : 中 国 科学 院 计算 技术 研究 所 
表 1-3 普 韦 泛 在 的 信息 网 络 体系 的 建设 特征 与 目标 


电脑 拥有 量 超 过 
4 亿 台 ， 新 型 终端 
普及 率 超 过 50% 


网 民 数 超过 6 亿 ， 
农村 网 民 数 达 3 亿 


局 域 网 带宽 将 超 
过 100Gbpsu”， 用 
户 接 入 速率 可 达 
1Gbps 


用 户 传输 带宽 可 达 
100Mbps2， 移 动 


互联 网 车 动 发 展 


在 物流 、 医 疗 监 
护 、 环 保 、 防 灾 等 
领域 普及 传 感 网 络 


域名 达 8 500 万 个 ， 
网 站 超过 1 400 万 
个 ， 服 务 器 超过 
6 000 万 台 


过 3 300 亿 


信息 产业 年 收入 
超过 15 万 亿 元 ， 
自主 创新 能 力 明 
显 增强 


泛 在 信息 终端 普及 率 
超过 80% 


网 民 数 超过 10 亿 ， 
传 感 网 在 城乡 普及 


建成 超越 TCP/P ( 传 
输 控制 协议 /互联 协 
议 ) 的 未 来 网 络 、 城 
域 量子 保密 通信 系统 


实现 空 、 天 、 地 、 水 
一 体 化 通信 融合 


传 感 天 终端 达到 数 
Te 


泛 在 的 网 络 专业 服 
务 ， 信 息 服 务 资 源 极 
为 丰富 


网 上 中 文 信息 内 容 占 
全 世界 网 上 信息 总 量 
的 10% 


建立 自主 可 控 的 信息 
技术 平台 ， 信 息 产 
业 实现 能 耗 和 排放 
零增长 


单位 ，1Gbps 即 每 秒 1GB。 一 一 编者 注 


几乎 人 人 都 有 信 
息 终 端 ， 几 乎 所 
有 需要 联网 的 设 
备 都 是 信息 终端 


信息 网 络 像 电力 
一 样 普及 ， 数 字 
鸿沟 几乎 消除 


带宽 各 取 所 需 ， 
实现 基于 量子 密 
码 的 全 球 实用 安 
全 通信 网 络 


信 系统 


传 感 “ 生 埃 ” 无 
处 不 在 


个 性 化 、 智 能 化 信 
息 服 务 成 为 主流 


人 均 1TB 的 个 性 
化 网 上 信息 


数据 和 知识 产业 
成 为 支柱 产业 
之 一 


@Mbps 是 带宽 单位 ，1Mbps 即 每 秒 1MB。 一 一 编者 注 
资料 来 源 : 中 国 科 学 院 计 算 技术 研究 所 

数据 连接 型 社会 是 人 机 物 三 元 世界 高 度 互 联 与 深度 融合 的 
社会 。 目 前 使 用 的 信息 系统 在 很 大 程度 上 仍然 根植 于 人 机 共生 的 思 
想 ， 即 人 做 直觉 的 、 有 意识 的 工作 ， 计 算 机 做 确定 的 、 机 械 的 操作 。 
人 确定 目标 和 动机 ， 计 算 机 处 理 琐碎 的 细节 ， 执 行 预定 流程 。 然 而 ， 
今天 的 数字 世界 已 经 与 一 人 一 机 组 成 的 分 工 明 确 的 人 机 共生 系统 不 
同 ， 它 是 一 个 多 人 、 多 机 、 多 物 组 成 的 动态 开放 、 虚 实 结合 的 数据 连 
接 型 社会 ， 即 由 人 类 社会 、 信 息 空间 、 物 理 世 界 组 成 的 三 元 世界 。 这 
是 一 种 新 的 数字 世界 观 ， 也 是 超 数 据 时 代 的 范式 变革 。 在 面向 三 元 世 
界 的 计算 中 ， 计 算 过 程 不 再 局 限于 使 用 计算 机 和 网 络 的 硬件 、 软 件 和 
服务 ， 而 是 综合 利用 物理 世界 、 赛 博 空间 滞 ) 、 人 类 社会 的 资源 ， 通 过 
人 机 物 融 合 协 作 完成 任务 。 人 机 物 的 融合 已 经 出 现 一 些 科研 、 技 术 和 
应 用 实例 。 个 人 作坊 利用 信息 系统 和 三 维 打印 技术 设计 制造 物理 产 
品 ， 欧 盟 “ 未 来 信息 通信 技术 知识 加 速 器 "项目 研 究 人 类 地 球 模拟 器 ， 
都 是 典型 的 人 机 物 融 合计 算 的 实例 。“ 智 慧 城市 ”数字 小 镇 "等 建设 也 
体现 了 人 机 物 三 元 融合 的 趋势 。 超 数据 时 代 ， 人 机 物 三 元 融合 将 使 得 
数字 科技 沉浸 式 地 渗透 到 实体 经 济 和 社会 服务 活动 中 ， 通 过 人 机 物 闭 
环 协作 交互 过 程 提升 生产 生活 的 智能 化 水 平 。 


数据 连接 型 社会 一 切 都 可 被 数据 化 ， 数 据 规模 呈 指 数 级 上 
升 , “地 球 村 ” 步 入 超 数据 时 代 。 人 类 的 感知 是 通过 眼睛 、 耳 杀 和 
皮肤 等 感觉 器 官 受到 刺激 ， 以 神经 冲动 的 方式 传导 至 大 脑 ， 通 过 大 脑 
的 反应 进行 认识 活动 的 。 在 数据 连接 型 社会 ， 人 机 物 高 度 互 联 ， 摄 像 
头 成 了 观察 世界 的 眼睛 ， 话 简 成 了 倾听 世界 的 吓 东 ， 各 种 各 样 的 传 感 
妖 则 成 了 感知 世界 的 皮肤 ， 通 过 传 感 絮 检测 到 的 电信 和 号， 进入 电脑 成 
为 我 们 所 需要 的 数据 流 。 因 此 ， 对 于 之 前 许多 人 类 不 能 或 不 方便 感 
知 、 测 量 的 事物 ， 现 在 可 以 通过 传 感 硕 技 术 将 其 准确 地 数据 化 。 随 着 
传感器 技术 的 发 展 ， 几 乎 没有 什么 不 能 被 其 捕 提 ， 大 至 气候 的 变化 、 


海 详 的 气温 和 走 癌 、 室 外 空气 质量 等 目 然 界 悄 无 声 奶 的 变化 ， 小 至 细 
胞 、 细 菌 和 病毒 的 变化 。 生 物 传 感 费 可 以 通过 具有 分 子 识别 能 力 的 生 
物 活性 物质 感受 目标 的 变化 ， 再 经 由 信号 转换 絮 转 化 为 电信 和 号， 束 可 
以 将 微观 领域 的 细胞 、 细 菌 等 的 变化 量化 为 数据 进行 分 析 人 研究 。 通 过 
这 种 方法 ， 可 以 检测 人 体 的 细微 变化 ， 不 仅 可 以 检测 健康 方面 的 变 
化 ， 而 且 可 以 检测 人 的 情绪 变化 ， 形 成 心情 指数 。 在 先进 的 传 感 紫 技 
术 下 ， 超 数据 时 代 的 一 切 问 题 几 乎 都 可 以 通过 技术 手段 量化 为 数据 ， 
如 图 1-1 所 示 。 
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图 1-1 人 类 社会 、 信 息 空 间 、 物 理 世 界 组 成 的 三 元 世界 
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(二 ) 数据 大 爆炸 : 海量、 复杂 与 失 


在 万 物 互 联 的 情境 中 ， 数 据 不 再 仅仅 是 人 类 思维 独 有 的 实体 产 
物 。 超 数据 时 代 ， 人 机 物 三 元 世界 融合 的 育 后 ， 无 时 无 刻 不 在 制造 海 
量 的 超 数据 ， 数 据 成 为 客观 世界 的 映射 。 数 据 连接 型 社会 “量化 一 
切 ” 的 特性 引发 数据 量 的 急剧 膨胀 ， 进 而 引发 数据 大 爆炸 ， 也 使 人 类 社 
会 陷入 被 垃圾 数据 层 层 包 右 的 超载 时 代 。 


超 数 据 时 代 ， 人 类 将 面临 难以 计量 的 海量 数据 ， 而 它们 主 
要 来 自 人 、 机 、 物 。 国 际 数据 公司 预测 ， 未 来 全 球 数据 总 量 增长 率 
将 维持 在 50% 左 右 ， 到 2020 年 全 球 数据 总 量 将 达到 40ZB。 其 中 一 部 分 
来 自 < 人 ”， 即 我 们 人 类 自身 。 据 中 国 互 联网 络 信息 中 心 等 机 构 的 统计 
报告 ， 我 国手 机 用 户 数 和 网 民 数 都 居 世 界 之 首 。 手 机 已 不 仅仅 是 一 个 
简单 的 通话 工具 ， 加 速度 传感器 、 陀 螺 仪 传感器 、 温 度 传感器 、 地 磁 
传感器 、 方 向 传感器 、 压 力 传感器 等 都 找 入 了 手机 ， 由 此 产生 的 音 
频 、 视 频 、 照 片 、 地 理 信 息 、 速 度 信息 等 每 时 每 刻 都 可 以 成 为 记录 的 
依据 ， 随 时 可 以 发 送出 来 与 别人 分 享 。 人 产生 的 超 数 据 还 来 自 健康 管 
理 ， 便 携 化 的 生理 设备 随 着 移动 互联 网 的 发 展 得 到 了 普及 ， 如 果 每 个 
个 体 的 健康 信息 都 连 入 互联 网 ， 那 么 数量 将 不 可 估量 ， 其 将 成 为 未 来 
重要 的 超 数据 来 源 。 超 数据 还 有 一 部 分 来 自 “ 机 "， 即 信息 系统 本 身 ， 
如 数据 中 心 的 运行 日 志 、 网 络 传输 协议 规定 的 各 种 非 有 效 载荷 部 分 、 
机 器 之 间 的 内 容 拷 贝 、 数 据 库 的 自动 备份 、 系 统 快照 、 虚 拟 机 的 镜像 
文件 等 。 这 些 数据 客观 真实 地 记录 了 系统 运行 的 历史 轨迹 ， 同 样 在 测 
试 调试 、 安 全 扫描 、 高 可 用 性 提升 、 计 算 机 取证 等 领域 具有 重要 的 保 
存 价值 。 超 数据 的 更 大 一 部 分 来 自 " 物 ”， 即 广阔 的 物理 世界 。 超 数据 
的 产生 基于 今天 无 处 不 在 的 传感器 和 微 处 理 器 ， 以 视频 监控 为 例 ， 一 
个 720P( 电 的 摄像 头 一 小 时 能 产生 3.6G 数 据 ， 一 座 城 市 若 安装 几 十 万 个 
交通 和 安防 摄像 头 ， 每 月 产生 的 数据 量 将 达 几 十 PB。 


超 数 据 时 代数 据 极 具 复杂 性 ， 包 括 数 据 复 杂 性 、 计 算 复杂 
性 和 系统 复杂 性 。 数 据 复杂 性 主要 表现 为 数据 类 型 和 模式 多 样 、 关 
联 关 系 蛇 洒 、 质 量 民 劳 不 齐 。 其 中 ， 数 据 内 在 的 复 洒 性 包括 复杂 的 类 


型 、 复 杂 的 结构 和 复杂 的 模式 ， 使 得 数据 的 感知 、 表 达 、 理 解 和 计算 
等 多 个 环节 面临 前 所 未 有 的 困难 与 挑战 ， 导 致 以 往 全 量 数据 计算 模式 
下 时 空 维度 上 计算 复 洒 度 的 激增 ， 以 往 的 数据 分 析 与 挖 抉 任 务 ， 例 如 
检索 、 主 题 发 现 、 语 义 和 情 感 分 析 等 也 变 得 异常 困难 。 计 算 复 洒 性 主 
要 表现 为 数据 检索 速度 慢 、 任 务 周 期 长 、 分 析 能 力 弱 。 超 数据 时 代 ， 
寺 续 激增 的 超 数 据 多 源 异 构 、 规 模 巨 大 、 快 速 多 变 等 特性 导致 以 往 的 
机 巍 学 习 、 数 据 检 索 、 数 据 挖掘 等 计算 方法 不 能 有 效 文 持 超 数据 的 处 
理 、 分 析 和 计算 。 特 别 是 超 数 据 计算 不 像 小 样本 数据 集 那 样 依赖 对 全 
局 数据 的 统计 分 析 和 和 迭代 计算 ， 需 要 突破 传统 计算 对 数据 的 独立 同 分 
布 和 采样 充分 性 的 假设 。 系 统 复 杂 性 主要 表现 为 数据 吞吐 率 高 、 并 行 
处 理 能 力 强 、 作 业 单 位 能 耗 低 。 对 于 规模 巨大 、 绪 构 复 杂 、 价 值 黎 玉 
的 超 数据 ， 其 处 理 系统 亦 面 临 计算 复杂 度 高 、 任 务 周 期 长 、 实 时 性 要 
求 高 等 难题 。 超 数据 及 其 处 理 的 这 些 难 点 不 仅 对 超 数据 处 理 系统 的 系 
统 架 构 、 计 算 框架 、 处 理 方法 提出 了 新 的 挑战 ， 而 且 对 超 数 据 人 处理 系 
统 的 运行 效率 及 单位 能 耗 提出 了 苛刻 的 要 求 ， 要 求 超 数 据 处 理 系 统 必 
须 具备 高 效能 。 


人 类 对 超 数 据 的 控制 能 力 是 有 限 的 ， 超 数据 很 大 程度 上 对 
人 类 来 说 就 是 失控 的 。 超 数据 日 复 一 日 地 变 得 更 大 、 更 复杂 、 更 
快 ， 要 把 所 有 数据 及 所 有 数据 的 所 有 方面 全 部 捅 清 芭 ， 愁 但 非 营 困 
难 ， 很 可 能 已 经 是 人 力 不 可 及 的 事情 。 很 直接 的 一 个 例子 器 是 "数据 
湖 ”， 显 然 “ 数 据 湖 ? 失 去 了 传统 数据 库 和 数据 仓库 那 种 井井有条 的 规范 
美 。“ 数 据 湖 ? 基 本 上 束 是 把 所 有 可 以 收集 到 的 数据 堆放 在 一 起 ， 并 没 
有 进行 规范 的 管理 。 并 不 是 人 们 不 想 管 理 ， 而 是 在 事实 上 做 不 到 ， 只 
能 癌 现 实习 协 。 当 然 ， 这 种 妥协 很 大 程度 上 可 能 是 目 发 的 而 不 是 目 贫 
的 。 可 能 很 多 人 也 认为 "数据 调 ” 只 是 一 种 过 渡 ， 我 们 还 在 等 竺 更 强大 
的 数据 管理 和 数据 治理 的 技术 、 工 具 、 平 台 与 方法 论 出 现 。 但 是 ， 人 
的 关 力 和 精力 终归 是 有 限 的 ， 如 末 我 们 期 望 能 为 所 有 数据 都 建立 非常 
民 好 的 文档 和 谱系 来 进行 管理 ， 并 且 能 够 及 时 维护 更 新 文档 和 谱系 ， 
那么 需要 投入 的 人 力 可 能 是 无 法 承受 的 。 还 有 一 个 问题 是 ， 如 何 保证 


这 些 管 理 的 质量 ? 只 做 形式 审查 比较 容易 ， 但 是 无 法 真正 保证 管理 文 
档 的 内 容 质量 ， 而 实质 审查 实际 上 又 征 不 可 能 做 到 的 。 因 此 ， 很 可 能 
我 们 根本 无 法 对 超 数据 建立 起 传统 意义 上 的 管理 体系 。 


(三 ) 数据 失真 、 数 据 依 赖 与 数据 安全 


数据 大 爆炸 导致 数据 过 剩 ， 数 据 量 大 大 超出 了 人 们 的 实际 需求 和 
计算 处 理 能 力 ， 同 时 也 面临 种 种 数据 风险 。 数 据 大 爆炸 产生 于 数据 的 
收集 、 存 储 、 分 析 和 使 用 的 全 过 程 ， 形 成 了 “数据 失真 “数据 依 
赖 ”和 “数据 安全 ”等 数据 困惑 现象 。 


数据 失真 。 长 期 以 来 ， 人 类 利用 局 部 、 片 面 的 数据 来 认识 和 改 
造 世 界 ， 在 无 法 获取 实时 数据 时 甚至 会 纯粹 依赖 主观 经 验 和 理论 假设 
把 握 未 知 领域 ， 因 而 其 认识 往往 是 肤浅 的 ， 甚 至 是 错误 和 扭曲 的 。 正 
如 《和 连 线 》 杂 志 前 任 主 编 克 里斯: 安 德 条 所 说 : “ 面 对 大 规模 数据 ， 科 
学 家 假设 、 模 型 、 检 验 ' 的 方法 变 得 过 时 了 。” 其 一 ， 超 数据 来 临 使 人 
类 掌握 了 一 种 全 新 的 技术 ， 通 过 全 面 、 完 整 和 系统 地 掌控 各 种 数据 信 
息 探 索 社 会 发 展 规律 成 为 可 能 。 其 二， 海量 数 据 可 能 会 带 来 数据 失真 
甚至 处 处 是 假 规律 的 现象 。 许 多 数据 都 是 草率 生成 的 、 令 人 误解 的 、 
僵 张 的 或 者 根本 是 错误 的 ， 成 为 不 恨 数据 。“ 数 据 量 大 并 不 意味 着 数据 
价值 的 增加 ， 相 反 这 往往 意味 着 数据 噪声 的 增多 ..….... 意 味 着 信息 垃圾 
的 泛滥 ”，“ 数 据 量 的 大 幅 增 加 会 造成 结 采 的 不 准确 ， 一 些 错误 的 数据 
会 宴 进 数据 库 ”。 来 源 不 同 的 各 种 信息 混杂 在 一 起 会 加 剧 超 数 据 的 混乱 
程度 ， 导 致 出 现 * 错 误 发 现 ? 的 风险 增加 。 斯 坦 福 大 学 教授 特 雷 弗 . 黑 斯 
带 用 “在 一 堆 稻草 里 面 找 一 根 针 ?来 形象 地 比喻 超 数 据 时 代 的 数据 挖掘 
现象 。 问 题 是 很 多 稻草 和 针 长 得 几乎 一 样 , “如 何 找到 一 根 针 ?成 为 数 
据 控 掘 问题 上 面临 的 最 大 难题 ， 海 量 数 据 市 来 显 赣 性 检验 的 问题 ， 将 
使 我 们 很 难 找到 真正 的 关联 。 在 超 数 据 应 用 中 ， 如 采 控 掘 分 析 的 价值 


信息 建立 在 失真 数据 的 基础 之 上 ， 束 会 做 出 错误 判断 和 了 预测， 甚至 可 
能 给 数据 应 用 者 市 来 巨大 的 灾难 。 


数据 依赖 。 超 数据 大 大 威胁 到 了 人 类 的 隐私 和 自由 ， 这 是 超 数 
据 市 来 的 新 威胁 。 与 此 同时 ， 它 也 加 剧 了 一 个 旧 威 胁 : 过 于 依赖 数 
据 ， 而 数据 远 远 没有 我 们 所 想 的 那么 可 靠 。 数 据 依赖 会 导致 数据 集 拜 
和 数据 独裁 。“ 我 们 比 想象 中 更 容易 受 数据 的 统治 一 一 让 数据 以 展 苦 参 
半 的 方式 统治 我 们 。 其 威胁 在 于 ， 我 们 可 能 会 完全 受 限 于 我 们 的 分 析 
结果 ， 即 使 这 个 结果 理应 受到 质疑 。 或 者 说 我 们 会 形成 一 种 对 数据 的 
执 迷 ， 因 而 仅仅 为 了 收集 数据 而 收集 数据 ， 或 者 赋予 数据 根本 无 权 得 
到 的 信任 。” 过 分 痴迷 数据 ,，“ 认 为 掌握 了 数据 ， 也 就 进一步 接近 了 上 
帝 ”, “我 们 相信 上 帝 ， 除 了 上 帝 ， 其 他 任何 人 都 必须 用 数据 说 话 ”。 现 
实生 活 中 ， 数 据 正在 发 挥 巨大 的 威力 ， 在 争分夺秒 地 迈 向 数字 时代 的 
过 程 中 ， 城 市 经 济 、 社 会 、 文 化 乃至 军事 等 行业 对 数字 信息 的 依赖 程 
度 达到 了 极致 。 这 一 方面 带 来 了 精准 与 效率 、 更 便捷 的 服务 效果 另 
一 方面 ， 这 种 对 数字 技术 的 高 度 依赖 性 反而 使 其 更 容易 遭受 攻击 和 毁 
火 、 更 加 脆弱 。 在 超 数 据 应 用 中 ， 可 能 会 出 现 两 种 数据 依赖 情形 。 一 
征 过 分 迷信 数据 信息 ， 对 超越 文化 或 常识 的 数据 视而不见 。 例 如 ， 城 
市 政府 迷信 某 种 安 观 的 经 济 数 据 ， 而 将 数据 的 平稳 等 同 于 经 济 乎 稳 ， 
忽略 了 潜在 的 经 济 安全 威胁 。 当 出 现金 融 危机 征兆 时 ， 会 出 现 非 理性 
地 引入 不 当 的 宏观 数据 来 掩盖 危机 的 可 能 性 。 二 是 过 分 依赖 历史 数 
据 。 城 市 政府 把 昔日 获取 的 数据 当 作 未 来 政治 、 经 济 、 文 化 教育 决策 
的 重要 依据 。 当 今世 界 变化 速度 之 快 早已 让 经 验 主义 失去 了 生机 和 效 
力 ， 过 去 和 未 来 已 经 不 可 同日 而 语 ， 即 使 是 短 时 间 内 的 重复 ， 也 可 能 
产生 完全 不 同 的 结 采 。 过 分 依赖 数据 、 时 拜 数据 , “无 数据 ， 不 决 
策 "， 会 市 来 巨大 的 风险 。 在 超 数据 时 代 ， 一 项 决策 万 不 能 没有 数据 文 
撑 ， 但 仅仅 依靠 数据 文 撑 来 做 决策 又 是 万 万 不 能 的 。 


数据 安全 。 数 据 安全 问题 是 超 数 据 时 代数 据 异化 风险 的 另 一 突 
出 表现 。 数 据 风 险 和 隐私 保护 成 为 数据 应 用 吏 竺 突破 的 重要 问题 ， 其 


紧迫 性 不 容 忽视 。 超 数据 安全 是 一 场 必 要 的 斗争 。 无 论 是 数据 抽取 与 
数据 集成 、 数 据 隔 离 与 数据 存储 ， 还 是 数据 分 析 与 数据 解释 ， 安 全 问 
题 都 吐 罕 于 数据 管理 的 始终 。 前 先 ， 超 数据 成 为 攻击 的 目标 。 攻 击 主 
要 来 日 外 部 ， 不 法 分 子 、 黑 客 入 侵 数 据 库 并 盗 取 想 要 的 资料 ， 使 系统 
无 法 正常 运行 。 超 数据 所 强 售 的 价值 信息 非常 吸引 黑客 的 注意 和 攻 
击 ， 一 个 有 力 证 据 是 近 几 年 来 互联 网 用 户 账 号 的 失 镭 信息 被 非法 转卖 
事件 频频 发 生 都 与 黑客 有 关 。 种 种 迹象 表明 ， 我 国 城市 政府 和 重要 企 
业 网 站 都 遭遇 过 境外 墨客 的 攻击 。 其 次 ， 隐 私 泄露 风险 日 花 加 大 。 以 
往 所 采用 的 对 隐私 的 侵犯 的 物理 的 、 强 制 性 的 侵入 方式 ， 已 经 被 更 加 
先进 、 更 加 微妙 的 新 方式 奉 代 ， 由 此 引发 隐私 风险 也 将 更 大 。 如 有 宁 说 
在 互联 网 时 代 ， 人 们 的 隐私 会 受到 威胁 ， 那 么 超 数 据 时 代 则 加 剧 了 这 
种 威胁 。 互 联网 的 出 现 使 监视 变 得 更 加 容易 ， 亚 马 逊 监视 我 们 的 购物 
情况 ， 百 度 监视 我 们 的 网 页 浏览 习惯 。 最 后 ， 技 术 发 展 增加 了 安全 风 
险 。 随 看 网 络 技术 的 发 展 ， 服 务 器 、 防 火 墙 等 网 络 设备 和 数据 挖掘 应 
用 系统 等 技术 的 广泛 使 用 ， 超 数据 目 动 收 集 和 智能 分 析 效 率 得 以 提 
高 ， 安 全 风险 也 相应 地 增加 了 。 一 方面 ， 数 据 技术 本 喘 的 安全 防护 存 
在 漏洞 ， 在 密 钥 生 成 、 存 储 和 管理 方面 的 不 足 都 可 能 造成 数据 泄露 ; 
男 一 方面 ， 攻 击 的 技术 水 平 提高 ， 攻 击 者 也 在 利用 这 些 数据 技术 进行 
攻击 一旦 受 到 恶意 攻击 ， 系 统 不 能 正 芝 运行 全 全 全 部 闻 痪 ， 整 个 社 
会 束 可 能 陷入 危机 。 
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5. ， 赛 博 空间 是 哲学 和 计算 机 领域 中 的 一 个 抽象 概念 ， 指 在 计算 机 及 计算 机 网 络 里 的 虚 


6. 720P 是 美国 电影 电视 工程 师 协会 制定 的 高 等 级 高 请 数字 电视 的 格式 标准 。720P 是 
一 种 在 逐 行 扫描 下 达到 1 280x720 的 分 辨 率 的 显示 格式 ， 是 数字 电影 成 像 技术 和 计算 机 
技术 的 融合 。 


第 三 节 
数据 拥堵 与 数据 治理 


(一 ) 数据 拥堵 的 由 来 


经 过 农业 章 命 、 工 业 章 命 的 “洗礼 * 之 后 ， 人 类 社会 正在 经 历 一 场 
数 子 章 命 。 当 前 ， 以 数字 技术 为 代表 的 新 一 轮 科技 章 命 正在 深刻 改变 
人 们 的 生产 生活 方式 ， 生 产 力 实 现 了 质 的 飞跃 ， 引 发 生产 关系 重大 变 
音 ， 成 为 重 塑 国际 经 济 、 政 治 、 文 化 、 社 会 、 生 态 、 军 事 发 展 靳 格局 
的 主 寻 力量 。 数 据 拥 墙 可 以 说 是 人 类 社会 数字 化 快速 发 展 的 反映 ， 数 
据 拥 堵 关 系 着 人 类 社会 的 正常 生活 和 工作 ， 成 为 超 数 据 时 代 最 重要 、 
最 急需 解决 的 数据 治理 难题 。 


数据 “条 ”“ 块 分割 严重 ， 重 复 采 集 、 重 复 录入 ,不 断 
做 “条 数据 ”的 增 量化 ， 造 成 数据 拥堵 。 条 数据 是 传统 人 类 研究 范 
式 的 数据 化 体现 ， 是 对 单独 领域 的 深化 ， 不 同 领 域 间 彼 此 制 窑 、 互 不 
融通 。 类 似 目 前 人 类 的 科学 研究 被 划分 为 众多 学 科 ， 对 科学 的 研究 只 
是 在 特定 研究 领域 内 不 断 地 深化 和 推进 ， 而 学 科 之 间 彼 此 没有 联系 。 
自 1946 年 世界 上 第 一 台电 脑 ENIAC 在 美国 宾夕法尼亚 大 学 面世 以 来 ， 
信息 化 建设 过 程 基 本 束 古 以 条 数据 呈现 的 ， 普 遍 存 在 条 块 分 割 和 信息 
孤岛 的 现象 。 条 数据 化 的 建设 产生 了 数据 单一 、 数 据 封 闭 、 数 据 垄 断 
等 问题 ， 具 体 表 现 为 不 同行 业 之 间 的 系统 与 数据 几乎 没有 交集 。 同 一 
行业 、 同 一 领域 ， 如 交通 、 社 傈 系统 内 部 等 ， 也 是 按 行 政 领域 进行 划 
分 建设 的 ， 跨 区 域 的 信息 交互 和 协同 非常 困难 。 严 重 的 甚至 在 同一 单 
位 内 ， 如 一 些 医院 的 信息 系统 建设 ,病历 管理 、 病 床 信息 、 药 品 管理 
等 子 系统 都 是 分 立 建设 的 ， 没 有 实现 信息 共享 和 互通 ， 进 而 导致 同一 


数据 多 部 门 、 多 时 间 重 复 采 集 、 重 复 永 入 ， 造 成 数据 的 海量 式 激 增 ， 
同时 也 造成 大 量 的 人 力 资 源 、 数 据 存储 资源 、 网 络 闹 源 浪 费 。 


超 数 据 时 代 现 有 数据 库存 储 架 构 难 以 支撑 海量 数据 来 回调 
度 ， 面 临 速度 响应 困境 ， 造 成 数据 拥堵 。 关 系 型 数据 库 管理 系统 
一 般 采 用 集中 式 的 存储 和 处 理 ， 没 有 分 布 式 架构 ， 在 很 多 大 型 企业 中 
的 配置 往往 都 是 IBM 服 务 器 、Oracle (甲骨 文 ) 数据 库 、EMC ( 易 安 
信 ) 存储 。 在 这 种 典型 配置 中 ， 单 台 服 务 器 的 配置 通常 都 很 高 ， 可 以 
多 达 几 十 个 CPU (中 央 处 理 器 ) 核 ， 内 存 也 能 达到 上 百 GB。 数 据 库 的 
存储 放 在 高 速 大 容量 的 磁 阵 上 ， 存 储 空间 可 达 TB 级 。 这 种 配置 对 传统 
的 信息 管理 系统 来 说 是 可 以 满足 需求 的 ， 但 面 对 不 断 增长 的 数据 量 和 
动态 数据 使 用 场景 ， 这 种 集中 式 的 处 理 方式 就 日 痊 成 为 瓶颈 ， 尤 其 是 
在 速度 响应 方面 捉襟见肘 。 超 数据 时 代 ， 在 面 对 海 量 数据 的 导入 导 
出 、 统 计 分 析 、 检 索 查 询 方面 ， 由 于 依赖 集中 式 的 数据 存储 和 索引 ， 
性 能 随 着 数据 量 的 增长 而 急速 下 降 ， 对 于 需要 实时 响应 的 统计 及 查询 
场景 更 是 无 能 为 力 。 比 如 在 物 联 网 中 ， 传 感 器 的 数据 可 以 达 几 十 亿 
条 ， 对 这 些 数据 需要 进行 实时 入 库 、 查 询 及 分 析 ， 关 系 型 数据 库 管 理 
系统 就 不 再 适用 。 


超 数 据 时 代数 据 种 类 和 格式 复杂 多 样 ， 现 有 数据 存储 模式 
难以 应 对 不 断 变化 的 数据 存储 需求 ， 造 成 数据 拥堵 。 关 系 型 数 
据 库 管理 系统 对 于 结构 化 、 固 定 模式 的 数据 ， 已 经 形成 相当 成 熟 的 存 
储 、 查 询 、 统 计 处 理 方式 。 超 数据 时 代 ， 物 联网 、 互 联网 及 移动 通信 
网 络 飞 速 发 展 ， 数 据 的 格式 及 种 类 在 不 断 变化 和 发 展 。 例 如 ， 在 智能 
交通 领域 ， 所 涉及 的 数据 可 能 包 仿 文本、 日志、 图 片 、 视 频 、 矢 量 地 
图 等 来 目 不 同 数据 采集 监控 源 的 不 同 种 类 的 数据 。 这 些 数据 的 格式 通 
党 都 不 是 固定 的 ， 采 用 结构 化 的 存储 模式 将 很 难 应 对 不 断 变 化 的 需 
求 。 因 此 ， 对 于 这 些 种 类 各 异 的 多 源 异 构 数 据 ， 需 要 采用 不 同 的 数据 
处 理 和 存储 处 理 模式 ， 结 合 结构 化 和 非 结 构 化 数据 存储 。 在 整体 的 数 


据 管理 模式 和 架构 上 ， 也 需要 采用 新 型 的 分 布 式 文件 系统 及 分 布 式 数 
据 库 架构 ， 才 能 适应 超 数 据 时 代 海 量 数据 及 变化 的 结构 。 


(二 ) 从 生命 周期 视角 思考 数据 拥堵 


数据 采集 与 数据 拥 姥 。 为 了 避免 造成 数据 拥堵 ， 超 数据 时 代 的 
数据 采集 应 当 结合 数据 使 用 战略 和 目标 ， 制 定数 据 采集 策略 。 超 数据 
时 代 ， 数 据 采 集 策略 可 以 从 两 个 方 同 展开 。 第 一 个 方向 是 尽量 多 地 采 
集 与 目 身 相关 的 数据 ， 并 整合 到 同一 平台 。 该 策略 的 实施 一 般 需 要 两 
个 条 件 : 首先 ， 需 要 较 高 的 成 本 投入 ， 内 部 数据 的 采集 、 外 部 数据 的 
获取 都 需要 较 高 的 成 本 投入 ， 同 时 将 数据 存储 和 整合 到 数据 平台 上 也 
需要 较 大 的 IT (信息 技术 ) 设施 投入 ; 其次， 需要 较 强 的 数据 专家 团 
队 ， 能 够 快速 甄别 数据 并 发 现 数据 的 价值 ， 如 末 无 法 从 数据 中 发 现价 
值 ， 较 大 的 投入 无 法 快速 得 到 回报 ， 台 无 法 持续 。 第 二 个 方 癌 是 以 需 
求 为 导向 的 数据 采集 策略 。 在 业务 或 管理 提出 数据 需求 之 后 ， 表 进行 
数据 采集 并 整合 到 数据 平台 。 该 策略 能 够 有 效 避 免 第 一 种 策略 投入 过 
大 的 问题 ， 但 是 完全 以 需求 为 导 回 的 数据 采集 往往 无 法 从 数据 中 发 
现 * 惊 喜 ”， 在 目标 既定 的 情况 下 ， 数 据 的 采集 和 分 析 都 容易 出 现 思 维 
限制 。 对 于 完全 数字 化 的 企业 ， 如 BAT (百度 、 阿 里 巴巴 、 腾 讯 ) 等 
互联 网 企业 ， 建 议 采用 第 一 种 数据 采集 策略 ;对 于 目前 疝 处 于 数字 化 
过 程 中 ， 经 费 较 少 、 数 据 能 力 成 熟 度 较 低 的 企业 ， 建 议 采用 第 二 种 数 
据 采 集 策 略 。 


数据 存储 与 数据 拥堵 。 超 数据 时 代 ， 采 用 传统 的 统一 技术 存储 
和 处 理 所 有 数据 的 方法 将 不 再 适用 ， 而 应 针对 不 同 热度 的 数据 采用 不 
同 技术 进行 处 理 ， 以 优化 存储 和 处 理 成 本 并 提升 可 用 性 。 结 合 超 数 据 
的 特征 和 属性 ， 可 以 引入 “数据 热度 ”的 概念 ， 即 根据 数据 的 价值 、 使 
用 频次 、 使 用 方式 的 不 同 ， 将 数据 划分 为 热 数据 、 瘟 数据 和 冷 数 据 


( 见 表 1-4) 。 热 数据 是 指 价值 密度 高 、 使 用 频次 高 、 文 持 实 时 化 查询 
和 展现 的 数据 ， 冷 数据 是 指 价 值 密度 低 、 使 用 频次 低 、 用 于 数据 沛 选 
和 检索 的 数据 ， 瘟 数据 介 于 两 者 之 间 ， 主 要 用 于 数据 分 析 。 对 不 同 热 
度 的 数据 ， 应 采用 不 同 的 存储 策略 。 冷 数据 一 般 包 含 所 有 的 结构 化 和 
非 结 构 化 数据 ， 其 价值 密度 低 ， 存 储 容量 较 大 ， 使 用 频次 较 低 ， 一 般 
采用 低 成 本 、 低 并 发 访问 的 存储 技术 ， 并 要 求 能 够 文 持 存储 容量 的 快 
速 横向 扩展 。 瘟 数据 一 般 包 合 结 构 化 数据 和 将 非 结 构 化 数据 进行 结构 
化 处 理 后 的 数据 ， 存 储 容量 侦 大 ， 使 用 频次 中 等 ， 一 般 用 于 业务 分 
析 。 由 于 涉及 业务 分 析 ， 会 涉及 数据 之 间 的 关联 计算 ， 对 计算 性 能 和 
图 形 化 展示 性 能 的 要 求 较 高 ， 但 该 类 数据 一 般 为 可 再 生 数 据 ， 即 通过 
其 他 数据 组 合 或 计算 后 生成 的 数据 ， 对 数据 获取 实效 性 和 备份 要 求 不 
高 。 热 数据 一 般 要 求 采 用 文 持 性 能 高 、 高 并 发 的 平台 ， 并 通过 高 可 用 
技术 ， 实 现 高 可 靠 性 。 对 于 多数 据 ， 建 议 采 用 较为 可 靠 的 文 持 高 性 能 
计算 的 技术 ， 以 及 文 持 可 视 化 分 析 工 具 的 平台 。 对 于 冷 数 据 ， 建 议 采 


用 低 成 本 、 大 容量 、 可 扩展 的 技术 。 
表 1-4 数据 热度 区 分 


数据 使 用 方式 ”| 静态 报表 或 查询 数据 分 析 数据 第 选 、 检 索 


1 
基于 数据 进行 决策 | 分 析 有 意义 的 数据 | 寻找 有 意义 的 数据 和 
数据 的 意义 


数据 使 用 目的 


数据 存储 量 低 中 高 


| 
数据 使 用 工具 ”| 可 视 化 展现 工具 可 视 化 分 析 工 具 编程 语言 和 技术 工具 


数据 使 用 者 决策 者 、 管 理 者 业务 分 析 者 数据 专家 


数据 分 析 与 数据 拥堵 。 超 数据 时 代 的 数据 分 析 与 应 用 一 般 可 以 
分 为 两 个 方向 。 第 一 个 方向 是 以 业务 为 驱动 〈 即 以 业务 需求 为 导向 ) 
的 数据 分 析 与 应 用 。 业 务 人 员 根 据 业 务 发 展 的 要 求 提出 数据 分 析 与 应 
用 的 需求 ， 明 确 分 析 的 目标 ， 数 据 分 析 人 员 根 据 该 目标 进行 统计 、 分 
析 、 数 学 建 模 等 工作 ， 形 成 分 析 结 果 或 数学 模型 ， 技 术 开 发 人 员 结 合 
业务 需求 和 数据 分 析 结 琳 开 发 应 用 类 软件 。 第 二 个 方向 是 以 数据 为 驱 
动 的 数据 分 析 与 应 用 ， 即 从 数据 出 发 ， 发 现 数据 价值 ， 推 广 到 应 用 。 
数据 分 析 人 员 对 数据 进行 研究 ， 发 现 数 据 间 的 关联 关 系 ， 提 出 新 发 现 
的 业务 分 析 方 向 和 应 用 方向 ， 并 提供 给 业务 部 门 。 在 实际 应 用 的 过 程 
中 ， 往 往 两 种 方式 相 结合 : 数据 分 机 人 员 在 处 理 业务 部 门 提 出 的 需求 
时 ， 往 往 会 有 更 深 一 层 的 数据 探索 ， 业 务 部 门 基于 数据 分 析 的 结 
往往 会 调整 分 析 目 标 ， 并 提出 进一步 分 析 的 需求 。 


数据 清理 与 数据 拥堵 。 超 数据 时 代数 据 清理 的 目的 主要 有 两 
个 : 一 是 无 天数 据 的 清理 ， 二 征 低 质量 数据 的 清理 。 通 俗 地 说 ， 驶 旦 
清理 垃圾 数据 。 超 数据 环境 中 的 数据 清理 与 传统 的 数据 清理 有 所 区 
别 。 对 传统 数据 而 言 ， 数 据 质量 是 一 个 很 重要 的 特性 ， 但 对 于 超 数 
据 ， 数 据 可 用 性 变 得 更 为 重要 。 传 统 意义 的 垃圾 数据 也 可 以 “ 变 废 为 
至 ”。 对 于 不 同 的 可 用 性 数据 ， 应 建立 不 同 的 质量 标准 。 应 用 于 财务 统 
计 的 数据 和 应 用 于 分 析 的 数据 ， 在 质量 标准 上 应 该 有 所 不 同 。 有 些 用 
途 必须 严格 禁止 垃圾 数据 进入 ; 有 些 用 途 讲求 数据 的 全 面 性 ， 但 对 数 
据 质量 的 要 求 不 高 ， 有些 用 途 ， 如 审计 与 风险 控制 ， 甚 至 需要 专门 天 
注 垃 圾 数据 ， 从 一 些 不 符合 逻辑 的 数据 中 发 现 问题 。 因 此 ， 在 超 数 据 
应 用 中 不 建议 直接 清理 垃圾 数据 ， 而 是 要 对 数据 质量 进行 分 级 。 不 同 
质量 等 级 的 数据 满足 不 同 层 次 的 应 用 需求 。 


(三 ) 数据 拥 墙 的 治理 范式 


超 数据 时 代 的 主要 任务 不 是 获取 越 来 越 多 的 数据 ， 而 是 数据 的 去 
元 分 类 、 去 粗 取 精 ， 从 海量 无 序 的 数据 中 挖掘 有 价值 的 信息 。 小 数据 
时 代 ， 人 类 基于 目 身 的 生活 经 验 ， 创 造 出 数 、 数 字 和 数据 并 加 以 运 
用 。 大 数据 时 代 ， 人 类 做 的 事情 是 处 理 数 据 “ 从 薄 到 厚 ”， 把 小 数据 变 
成 大 数据 。 超 数据 时 代 ， 人 类 要 做 的 事情 是 处 理 数据 “从 厚 到 薄 ”， 把 
大 数据 变 成 小 数据 ， 在 不 明显 增加 成 本 的 前 所 下 尽 可 能 地 提高 数据 的 
质量 ， 创 新 数据 治理 思维 ， 从 数据 科学 、 生 命 科 学 、 社 会 科学 、 智 能 
科学 等 角度 探索 治理 数据 拥堵 新 范式 。 


数据 拥堵 的 数据 科学 治理 范式 。 数 据 本 身 存 在 着 从 产生 到 消 
亡 的 生命 周期 ， 在 数据 的 生命 周期 中 ， 数 据 的 价值 会 随 着 时 间 的 推移 
而 发 生变 化 。 数 据 的 被 采集 粒度 与 实效 性 、 存 储 方式 、 整 合 状况 、 呈 
现 和 展示 的 可 视 化 程度 、 分 析 的 深度 ， 以 及 和 应 用 衔接 的 程度 ， 都 会 
对 数据 价值 的 体现 产生 影响 。 超 数据 时 代 的 数据 拥堵 治理 可 以 结合 数 
据 生 命 周 期 各 阶段 的 特点 ， 采 取 不 同 的 管理 和 控制 手段 。 例 如 ， 结 合 
超 数据 的 基本 特征 ， 研 究 超 数据 下 以 数据 为 中 心 的 计算 模式 ， 突 破 现 
阶段 的 数据 围绕 机 器 式 计算 ， 构 建 以 数据 为 中 心 的 推送 式 计算 模式 ， 
探索 基于 块 数据 结构 的 系统 架构 模型 及 其 计算 理论 ， 研 究 分 布 化 、 流 
式 计算 算法 ， 形 成 通信 、 存 储 、 计 算 融 合 优化 的 超 数据 计算 框架 。 同 
时 ， 从 数据 全 生命 周期 “倒序 的 视角 ， 探 索 预 言 性 数据 分 析 问 题 时 
从 “足够 多 * 的 数据 到 “刚刚 好 * 的 数据 ， 再 到 “有 价值 * 的 数据 的 按 需 约 
简 方 法 ， 研 究 基于 自 举 (多 和 采样 的 局 部 计算 与 近似 方法 ， 提 出 不 依赖 
全 量 数据 的 新 型 算法 理论 基础 。 


数据 拥 墙 的 生命 科学 治理 范式 。 壮 忘 特性 是 人 脑 的 核心 功能 
之 一 。 遗 起 是 对 人 类 记忆 的 筷 选 ， 对 人 类 不 断 记忆 和 学 习 有 闭 积 极 意 
义 。 人 研 究 表 明 ， 人 脑 记 忆 事 物 并 不 是 一 次 性 记 住 事物 的 整体 ， 而 是 对 
通过 神经 元 的 计算 分 析 将 事物 分 为 看 干 信 息 粒 子 ， 再 根据 各 个 信息 粒 
子 之 间 的 关系 记忆 事物 。 同 样 ， 人 脑 对 于 事物 的 遗 筷 也 并 非 一 次 性 将 
事物 整体 遗 迄 ， 而 是 先 遗 筷 组 成 事物 的 部 分 信息 粒子 及 信息 粒子 之 间 


的 关联 关 系 ， 进 而 遗 起 事物 整体 。 此 外 ， 人 类 的 遗 坪 特性 会 随 着 时 间 
的 推移 而 减弱 。 那 些 出 现时 对 人 类 刺激 程度 较 大 的 事物 将 会 变 成 人 类 
的 深层 记忆 ， 虽 不 曾 被 想起 ， 但 也 不 会 被 态 记 ， 而 对 那些 出 现时 对 人 
类 刺激 程度 较 小 的 事物 ， 和 人们 在 封存 记忆 或 者 完全 息 记 之 前 会 出 现 一 
段 记忆 模糊 的 时 间 ， 即 能 够 记得 其 曾 发 生 或 出 现 过 ， 但 对 细 市 、 内 容 
的 记忆 十 分 模糊 。 在 超 数 据 时 代 ， 数 据 本 喘 不 具有 “ 遗 走 ”特性 ， 也 不 
会 目 动 删 减 ， 只 会 源源 不 断 地 被 存储 、 被 记录 ， 进 而 导致 大 面积 的 存 
储 浪 费 ， 甚 至 存储 瘫痪 。 块 数据 架构 足 一 种 相互 天 联 的 染 构 ， 只 有 把 
离散 孤立 的 点数 据 和 单 维度 不 断 激增 的 条 数据 放 到 块 数据 的 染 构 上 ， 
才能 知道 哪些 数据 是 无 效 数 据 、 见 余数 据 ， 是 可 以 做 减 量 的 数据 ， 从 
而 对 这 部 分 数据 进行 封存 、“ 遗 坪 "， 进 而 做 到 对 数据 的 减 量 和 对 数据 
拥 墙 的 治理 。 


数据 拥堵 的 社会 科学 治理 范式 。 相 比 小 数据 时 代 和 大 数据 时 
代 ， 超 数据 时 代 是 一 个 更 加 开放 、 更 加 复杂 的 巨 系 统 。 超 数据 时 代 ， 
人 类 积 素 数据 的 能 力 远 远 超过 处 理 数据 的 能 力 。 垃 圾 数据 沁 瀑 ， 数 据 
识别 难度 加 大 ， 数 据 采 集 、 存 储 和 使 用 方式 发 生 重 大 变化 ， 加 剧 了 社 
会 的 不 确定 性 和 不 可 预知 性 。 解 决 超 数 据 时 代 “ 数 据 病 ”的 困扰 ， 应 回 
归 到 以 人 为 原点 的 数据 社会 学 的 思维 模式 ， 而 数据 社会 学 的 核心 是 以 
社会 学 为 原点 进行 多 维度 数据 分 析 。 社 会 学 古 运 用 科学 的 方法 研究 社 
会 与 人 类 行为 的 绿 合 性 学 科 ， 它 包括 社会 经 济 学 、 社 会 心理 学 、 社 会 
历史 学 、 社 会 行为 学 ， 甚 至 包 插 法律、 伦理、 宗教 、 人 文 、 政 治 等 内 
容 。 社 会 学 全 究 本 身 的 综合 性 和 研究 对 象 的 复杂 性 决定 了 其 更 多 的 相 
天性 。 基 于 数据 社会 学 的 数据 分 析 方 法 ， 优 先 控 据 并 使 用 那些 强 关 联 
的 数据 ， 并 对 那些 弱 关 联 或 者 写 无 关联 的 数据 进行 合理 剔除 与 减 量 。 


数据 拥堵 的 智能 科学 治理 范式 。 受 到 脑 部 工作 理念 启发 ， 发 
展 类 脑 智能 现 已 成 为 人 工 智能 学 科 及 计算 机 应 用 相关 领域 斌 究 的 热 
点 。 类 脑 智能 是 超 数 据 时 代数 据 处 理 的 重要 方式 。 类 脑 智能 是 以 计算 
建 模 为 应 用 手段 ， 受 人 体 脑 部 神经 机 制 调 记 和 人 机 行为 理念 开发 并 依 


据 软 硬件 共同 运作 实现 的 机 亏 知 能。 因此， 研究 类 脑 窜 能 数据 挖掘 ， 
对 发 展 具 有 协同 多 种 不 同 认 知 能 力 的 海量 数据 处 理 及 非 结构 化 复杂 形 
式 数 据 分 析 具 有 重要 意义 。 在 对 类 脑 智能 数据 挖掘 的 过 程 中 ， 先 要 完 
成 对 类 脑 智能 数据 的 预 处 理 ， 降 低 后 续 计 算 的 复杂 程度 。 由 于 类 脑 窜 
能 数据 变量 的 变化 具有 模糊 性 ， 为 保证 变量 能 够 尽 可 能 地 保留 原 有 变 
量 所 表现 的 信息 ， 依 据 马 氏 距离 习 来 调整 类 脑 智能 数据 变量 之 间 的 相 
天 性 ， 并 通过 天 联 规则 找寻 在 某 一 类 脑 智 能 数据 库 中 不 同 项 目 之 间 的 
关联 ， 确 定 最 小 文 持 度 和 最 小 置信 度 后 ， 对 离散 化 的 智能 数据 进行 属 
性 的 约 和 价 ， 在 此 基础 上 通过 对 关联 规则 数据 挖掘 处 理 获 得 的 集合 进行 
交互 ， 完 成 对 类 脑 智能 数据 的 挖掘 。 


1。 预言 性 数据 分 析 问题 ， 即 建立 一 种 理论 ， 对 求解 一 个 问题 达到 某 种 满意 程度 需要 多 
大 规模 的 数据 量 给 出 理论 上 的 判断 。 数 据 量 少 于 这 个 判断 值 ， 问 题解 决 不 了 ， 数 据 量 达 
到 这 个 判断 值 ， 就 可 以 解决 以 前 解决 不 了 的 大 问题 ， 数 据 量 超过 这 个 判断 值 ， 对 解决 问 
题 也 没有 更 多 的 帮助 。 

2， 。 自 举 ， 指 利用 有 限 的 样本 资料 经 由 多 次 重复 抽样 ， 重 新 建立 起 足以 代表 母体 样本 分 
布 的 新 样本 。 


3.， ” 马 氏 距离 是 由 印度 统计 学 家 马 哈 拉 诺 比 斯 提出 的 ， 表 示 数 据 的 协 方差 距离 。 它 是 一 
种 计算 两 个 未 知 样本 集 的 相似 度 的 有 效 方法 。 


ha 


AAA 


二 章 
激活 数据 学 : 革 于 决 数据 理论 的 钥 决 万 


-个 


数据 和 信息 在 人 类 社会 、 物 理 空 间 与 信息 空间 之 间 的 交叉 融合 及 
相互 作用 ， 正 在 深刻 地 改变 人 类 之 间 、 人 类 与 物理 环境 和 社会 之 间 的 
关系 与 互动 模式 ， 信 息 技 术 的 进步 和 普及 催生 的 数据 的 定义 与 收集 方 
式 的 章 命 性 变化 ， 使 数据 呈现 煤 炸 式 增 长 的 趋势 。 


面 对 数 据 的 爆炸 式 增 长 ， 以 及 人 类 社会 活动 、 工 程 技术 和 科学 研 
完 各 个 领域 的 高 复杂 性 、 不 确定 性 与 脆弱 性 问题 ， 如 何 实现 海量 数据 
的 有 效 积 素 ， 并 将 其 转化 为 知识 应 用 于 人 类 多 样 化 的 场景 ， 需 要 从 根 
本 上 重新 思考 我 们 的 方法 。 


激活 数据 学 的 所 出， 为 更 有 效 地 运用 人 类 智能 与 机 大 智 能 应 对 超 
数据 危机 提供 了 新 的 思路 和 重要 的 方法 论 ， 帮 助 我 们 更 好 地 把 握 人 类 
社会 发 展 的 规律 ， 以 科学 的 发 展 观 理性 地 塑造 更 智能 化 的 生存 环境 。 


第 一 节 
复杂 理论 与 块 数据 


(一 ) 复杂 性 的 涌现 


长 期 以 来 ， 简 单 性 原则 一 直 是 科学 家 考察 世界 的 主要 思维 方式 。 
在 近代 目 然 科学 形成 后 的 长 达 几 个 世纪 里 ， 世 界 被 描绘 成 一 部 由 各 种 
做 工 精 密 的 零 部 件 组 成 的 大 机 器 。 从 牛顿 到 爱 因 斯 坦 ， 科 学 人 研究 的 一 
大 突出 特点 是 确立 了 “现实 世界 人 简单 性 ”的 观念 ， 其 中 以 还 原 论 为 代 
表 。 还 原 论 认为 整体 是 由 个 体 的 简单 相 加 或 机 械 组 合 形成 的 ， 即 “整体 
等 于 个 体 之 和 ”， 并 认为 世界 上 的 所 有 东西 都 可 以 通过 足够 的 细 分 变 为 
简单 的 个 体 ， 例 如 把 研究 对 象 分 解 为 各 种 位 单 的 要 素 ， 诸 如 基本 粒 
于、 原子 、 分 子 等 ， 只 要 将 这 些 要 素 的 基本 属性 研究 清楚 束 能 得 出 整 
体 的 特征 规律 。 这 种 研究 路 线 确 实 对 近代 科学 做 出 了 不 可 磨灭 的 巨大 


页 献 。 


基于 现实 世界 的 复杂 性 、 不 确定 性 、 多 变性 、 有 误差 性 等 因素 ， 
当 我 们 将 简单 性 原则 推广 到 现实 世界 涌现 的 越 来 越 多 的 复杂 性 现象 中 
去 的 时 候 ， 似 乎 已 经 不 太 适 用 ， 越 来 越 多 的 事实 和 科学 发 现 不 断 冲 击 
着 “现实 世界 简单 性 * 这 一 根深 蒂 固 的 观念 。20 世 纪 40 年 代 以 来 ， 科 学 
前 沿 出 现 了 一 种 研究 自然 与 社会 现象 的 全 新 的 方法 论 一 复杂 性 方 
法 。 复 杂 性 方法 是 系统 地 、 综 合 地 研究 事物 的 新 方法 。 复 杂 系统 理论 
的 提出 为 人 们 认识 、 了 解 、 控 制 和 管理 复杂 系统 提供 了 新 的 思路 与 视 
角 ， 对 于 认识 与 解释 社会 、 生 物 等 复杂 系统 具有 特别 的 意义 。( 乌 


目 然 界 、 人 目 身 及 人 类 社会 普 直 存在 着 无 数 的 复杂 性 现象 ， 例 如 
生物 体系 统 、 人 脑 系 统 、 地 理 系统 、 生 态 系统 、 社 会 系统 、 星 系 系统 
等 。 这 些 系 统 无 论 在 结构 、 功 能 、 行 为 还 是 演化 方面 都 很 复 杀 。 直 到 
今天 ， 还 有 大 量 的 问题 ， 我 们 并 不 知道 答案 。 如 人 脑 系 统 ， 由 于 人 脑 
的 记忆 、 思 维和 推理 功能 及 意识 作用 ， 它 的 输入 一 输出 反应 特性 极为 
复杂 。 人 脑 可 以 利用 过 去 的 信息 (记忆 ) 和 未 来 的 信息 (推理 ) ， 以 
及 当时 的 输入 信息 和 环境 作用 ， 做 出 各 种 复杂 反应 。 从 时 间 角 度 看 ， 
这 种 反应 可 以 是 实时 反应 、 请 后 反应 ， 其 至 超前 反应 。 从 反应 类 型 
看 ， 可 能 是 真 反 应 ， 也 可 能 是 假 反 应 ， 其 至 没有 反应 。 所 以 ， 人 的 行 
为 绝 不 是 什么 简单 的 “条 件 反 射 >， 它 的 输入 一 输出 特性 随时 间 而 变 
化 。 实 际 上 ， 人 脑 有 10 “个 神经 元 ， 还 有 同样 多 的 胶 质 细胞 ， 它 们 之 
间 的 相互 作用 又 远 比 一 个 电子 开关 复杂 得 多 ， 所 以 美国 IBM 研 究 所 的 
E. 殉 薪 门 带 曾 说 ， 人 脑 像 由 10"“ 台 每 秒 运 算 10 亿 次 的 巨型 计算 机 关联 
而 成 的 大 计算 网 络 。 


再 上 一 个 层次 ， 就 是 以 人 为 子 系统 主体 而 构成 的 系统 ， 这 类 系统 
的 子 系统 还 包括 由 人 制造 出 来 的 具有 智能 行为 的 各 种 机 器 。 由 于 人 的 
意识 作用 ， 子 系统 之 间 的 关系 不 仅 复杂 而 且 具 有 极 强 的 易 变 性 。 一 个 
人 本 身 就 是 一 个 复杂 巨 系统 ， 人 类 又 以 大 量 的 复杂 巨 系统 为 子 系统 组 
成 一 个 巨 系统 一 社会 。 人 认识 客观 世界 ， 不 单 要 靠 实践 ， 还 要 用 人 
类 过 去 创造 出 来 的 精神 财富 ， 知 识 的 掌握 与 利用 是 十 分 重要 的 。 什 么 
知识 都 不 用 ， 那 就 退回 到 100 多 万 年 前 我 们 祖先 的 水 平 了 。 人 已 经 创造 
出 巨大 的 高 性 能 的 计算 机 ， 还 致力 于 研制 有 智能 行为 的 机 器 ， 人 与 这 
些 机 器 作为 系统 中 的 子 系统 互相 配合 ， 和 谐 地 开展 工作 ， 这 是 迄今 为 
止 最 复杂 的 系统 了 。 仁 


随 着 超 数据 时 代 的 来 临 ， 人类、 机 硼 人 、 众 多 智能 体 无 颖 蔷 入 庞 
大 的 互联 网 、 物 联网 ， 行 进 于 更 开放 的 交互 环境 ， 共 同形 成 了 一 个 不 


断 目 我 演化 的 复杂 整体 。 人 类 社会 活动 各 个 领域 的 高 复杂 性 、 不 确定 
性 和 脆弱 性 问题 将 进一步 凸显 。 


从 某 种 意义 上 说 ， 大 数据 的 价值 只 有 在 其 能 够 被 规范 成 为 可 供 分 
析 的 形式 之 后 才能 最 大 限度 地 被 挖掘 出 来 然而， 在 巨 量 的 大 数据 面 
前 ， 实 际 上 可 供 规范 分 析 的 数据 只 有 极 少数 ， 许 多 数据 都 停留 在 “全 扩 
化 ”阶段 而 难以 被 真正 控 握 和 分 析 。 当 数据 量 和 急剧 增长 ， 数 据 垃圾 越 来 
越 多 时 ， 人 类 或 许 会 陷入 某 种 程度 上 的 认 知 障碍 ， 难 以 系统 认 知 复杂 
事物 。 


通过 对 复杂 性 的 进一步 探索 ， 可 以 认为 ， 超 数据 时 代 的 社会 是 “ 科 
学 问题 + 工程 问题 + 社会 问题 "的 复杂 系统 ， 靠 传统 的 认 知 、 观 测 很 难 
了 解 它 ， 需 要 在 复杂 性 思维 方法 的 指导 下 ， 将 传统 认 知 方式 与 新 的 认 
知 方式 结合 在 一 起 ， 才 能 对 它 进 行 新 的 改造 。 现 在 ， 用 复 洒 性 系统 思 
维 认识 世界 和 改造 世界 之 旅 已 经 开始 。 


(二 ) 块 数据 的 数据 观 


摩尔 定律 驱动 的 信息 技术 的 不 断 廉价 化 和 互联 网 的 普及 ， 以 及 其 
延伸 所 市 来 的 无 处 不 在 的 信息 技术 应 用 ， 催 生 了 大 数据 时 代 。 过 去 10 
年 ， 人 类 在 互联 网 、 云 计算 、 大 数据 、 物 联网 等 领域 取得 了 突飞猛进 
的 进展 ， 这 些 技术 的 进步 成 就 了 侍 合 的 苹果 、 合 歌 和 中 国 的 BAT 等 一 
批 互联 网 公司 ， 大 数据 已 经 在 经 济 领 域 、 社 会 领域 彻 慌 显 覆 人 类 目 工 
业 持 命 以 来 积 素 形成 的 经 济 模式 、 商 业 模式 和 治理 模式 。 


大 数据 发 展 的 核心 动力 源 于 人 们 测量 、 记 录 和 分 析 世 界 的 渔 望 ， 
满足 这 些 渴望 需要 数据 、 技 术 和 思维 三 大 要 素 。 在 计算 技术 、 通 信 技 
术 日 益 成 熟 的 今天 ， 在 廉价 、 便 捷 的 数字 化 存储 普及 的 当下 ， 数 据 无 
处 不 在 ， 技 术 正 以 标准 化 、 商 品 化 的 方式 提供 ， 事 实 上 思维 和 方法 论 


才 是 决定 大 数据 成 败 的 关键 。 但 是 目前 看 来 ， 跨 越 学 科 与 学 科 、 学 术 
与 产业 、 技 术 与 应 用 之 间 的 鸿沟 的 方法 论 依然 不 完善 ,“ 块 数据 ?的 提 
出 提供 了 一 种 全 新 的 数据 观 。 


块 数据 产 于 条 数据 。 目 前 ， 人 类 形成 的 大 数据 更 多 的 是 以 领域 、 
行业 为 单位 ， 彼 此 制 神 、 互 不 相通 的 条 数据 。 概 括 来 说 ， 条 数据 有 4 个 
基本 特征 。 第 一 ， 领 域 单一 。 由 于 产生 于 某 一 个 特定 行业 领域 ， 条 数 
据 信 息 量 比较 单一 ， 更 多 的 是 束 医疗 谈 医 疗 、 台 教育 谈 教 育 ， 局 限 在 
某 一 个 小 圈子 里 ， 视 野 相对 不 开阔 。 第 二 ， 数 据 封 路。 条 数据 更 多 地 
被 少数 企业 、 行 业 或 者 部 门 独占 ， 不 共 至 、 不 开放 ， 想 获得 数据 的 全 
貌 比 较 困难 。 第 三 ， 数 据 垄 断 。 数 据 本 号 构 成 了 企业 或 者 某 个 部 门 的 
核心 范 争 力 ， 数 据 被 视 为 私有 的 资源 或 者 资产 ， 为 少数 企业 所 垄断 ， 
资产 价值 难以 发 挥 ， 这 不 仅 浪费 了 数据 资源 ， 而 且 阻 碍 了 商业 、 社 会 
治理 和 服务 民生 等 领域 的 创新 。 第 四 ， 源 目 事务 流 。 由 于 条 数据 被 祝 
为 私有 的 ， 它 与 企业 的 营销 、 生 产 等 商业 活动 紧密 关联 ， 企 业 或 者 组 
织 更 加 重视 采集 生产 经 营 活 动 中 的 事务 流 数 据 ， 比 如 产品 、 客 户 、 销 
售 额 等 数据 ， 往 往 名 视 了 与 人 关联 的 行为 数据 、 人 文 数 据 和 社会 活动 
数据 。 条 数据 制约 了 数据 价值 的 最 大 化 ， 阻 碍 了 数据 资源 的 共 至 、 
放 及 其 价值 发 挥 。 基 于 条 数据 的 预测 分 析 ， 犹 如 “盲人 探 象 ?， 容 易 以 
偏 概 全 ， 出 现 重大 偏差 。 


《 块 数据 》 基 于 条 数据 提出 了 “ 块 数据 ”这 个 新 名 词 ， 块 数据 是 一 
个 物理 空间 或 行政 区 域 形 成 的 涉及 人 、 事 、 物 的 各 类 数据 的 总 和 。 块 
数据 有 别 于 条 数据 的 最 大 特征 是 具有 共享 性 和 可 交易 性 ， 打 破 了 各 个 
行业 、 部 门 和 领域 之 间 的 障碍 。《 块 数据 2.0》 对 块 数据 的 定义 进行 了 
进一步 深化 ， 认 为 块 数据 是 具有 高 度 关 联 性 的 各 类 数据 在 特定 平台 上 
的 持续 聚合 。《 块 数据 3.0》 从 秩序 互联 网 和 主权 区 块 链 的 角度 对 块 数 
据 理 论 进行 深化 研究 ， 探 讨 了 块 数据 的 技术 基础 和 法 律 规制 问题 ， 为 
建立 新 型 网 络 秩序 提供 了 一 种 可 能 。 


块 数据 的 数据 观 是 “开放 、 共 至 、 连 接 ”*”。 块 数据 束 像 一 块 计算 机 
的 主板 ， 它 建立 起 了 一 个 开放 、 共 至 、 连 接 的 数据 基地 ， 而 各 个 行业 
和 部 门 的 条 数据 就 像 一 个 个 可 搬 拨 的 板 卡 ， 它 们 只 有 融合 和 集成 到 主 
板 上 ， 才 能 发 挥 数 据 资 产 真正 的 功效 。 块 数据 具有 5 个 典型 特征 。 


第 一 ， 高 度 关 联 性 。 数 据 的 关联 度 越 高 ， 信 息 量 越 大 ， 价 值 也 现 
越 大 。 数 据 主 体 间 的 关联 关系 相对 清晰 ， 相 互 之 间 的 关联 性 更 强 ， 世 
界 将 变 得 更 加 透明 ， 人 类 对 世界 的 认 知 水 平和 洞察 力 将 大 幅 提升 ， 认 
识 世界 和 改造 世界 的 能 力也 将 上 升 到 一 个 新 的 层次 。 


第 二 ， 立 体 性 。 从 物理 上 看 ， 由 “条 ”到 “ 块 ” 本 身 束 是 一 个 维度 增 
加 的 过 程 ， 这 实际 上 束 离 意 着 数据 结构 的 变化 。 立 体 性 表现 在 数据 来 
源 更 广泛 、 数 据 模式 更 多 元 、 数 据 主体 更 具 时 空 性 。 首 先 ， 块 数据 的 
数据 不 仅 来 源 于 传统 的 政府 部 门 、 商 贸 物 流 、 人 金融 保 险 、 工 业 企 业 ， 
而 且 来 源 于 社交 网 络 、 影 视 娱乐 、 设 备 传 感 茵 。 其 次 ， 块 数据 的 数据 
模式 不 仅 包括 传统 的 二 维 数据 表 、 文 字 文档 格式 的 结构 化 数据 ， 而 且 
包括 互联 网 上 的 链接 、 微 信息 、 音 频 、 视 频 、 图 片 等 不 同 格 式 的 非 结 
构 化 数据 。 最 后 ， 块 数据 的 数据 主体 更 具 时 空 性 ， 其 数据 内 容 更 丰 
富 ， 既 包括 该 区 域内 企业 、 人 口 、 和 车辆 等 基本 相对 静态 数据 ， 双 包括 
人 员 活 动 路线 、 消 费 记 录 、 生 活 习 性 等 动态 数据 ， 两 者 结合 束 形 成 了 
一 个 立体 化 实时 更 新 的 数据 网 络 。 


第 三 ， 活性。 数据 的 活性 是 衡量 数据 价值 尺度 的 重要 指标 ， 这 里 
的 活性 就 是 指数 据 的 更 新 率 和 鲜 活 度 ， 与 条 数据 更 新 更 多 发 生 在 增 量 
上 有 所 不 同 ， 块 数据 的 更 新 既 发 生 在 增 量 上 ， 又 发 生 在 存量 上 ， 同 时 
数据 更 新 频率 更 快 、 鲜 活 程度 更 高 ， 数 据 变 化 的 啊 应 速度 更 快 。 


第 四 ， 主 体 性 。 数 据 来 源 于 社会 义 作 用 于 社会 。 无 论 是 可 以 数字 
化 的 数据 还 是 不 可 数字 化 的 数据 ， 其 比较 、 分 析 和 归纳 其 实 反 映 的 都 
征 人 在 符号 层面 上 的 一 种 互动 。 从 社会 学 角度 看 ， 所 有 数据 说 到 撒 都 
征 有 关 人 的 符号 。 不 同 于 条 数据 源 目 企业 的 产品 或 服务 ， 块 数据 始终 


围绕 人 或 物 的 活动 产生 ， 始 终 以 人 为 原点 ， 始 终 关 注 人 在 数据 中 的 主 
体 价 值 。 


第 五 ， 开 放 性 。 块 数据 为 不 同 企业 、 部 门 、 个 人 之 间 建 并 交换 与 
共 至 的 桥梁 和 机 制 提供 了 基础 。 通 过 开放 数据 ， 数 据 的 价值 将 通过 在 
各 个 领域 的 融合 应 用 实现 最 大 限度 的 释放 。 


块 数据 插 借 对 条 数据 的 关联 融合 ， 通 过 不 同 种 类 、 领 域 数 据 的 目 
由 流动 和 开放 共享 ， 早 新 了 我 们 的 数据 观 、 世 界 观 、 价 值 观 和 方法 


论 。 


(三 ) 数据 学 与 数据 科学 


数据 学 是 关于 数据 的 科学 ， 是 从 数据 中 发 现 与 提取 知识 的 过 程 ， 
是 研究 探索 大 数据 领域 奥秘 的 理论 、 方 法 和 思想 ， 并 激发 科学 研究 理 
论 和 方法 的 转化 与 飞跃 。 数 据 学 研究 的 对 象 是 数据 ， 而 不 是 信息 ， 也 
不 是 知识 。 数 据 科 学 通过 研究 数据 获取 对 自然 、 生 命 和 行为 的 认识 ， 
进而 获得 信息 和 知识 。 数 据 科 学 主要 以 统计 学 、 机 器 学 习 、 数 据 可 视 
化 及 某 一 领域 知识 为 理论 基础 ， 主 要 研究 内 容 包 括 数据 科学 基础 理 
论 、 数 据 预 处 理 、 数 据 计算 和 数据 管理 。 乌 


在 小 数据 时 代 ， 因 受 采集 数据 、 搜 索 信 息 手 段 的 限制 ， 一 般 人 都 
处 于 数据 或 信息 量 的 缺少 状态 (“营养 不 良 ”) ， 有 眼界 受 限 ， 知 识 面 和 
思维 的 开阔 度 不 足 ， 难 免 存 在 “ 井 的 之 蛙 ”" 和 “有 鼠 目 寸 光 ”的 局 限 。 到 了 
大 数据 时 代 ， 数 据 和 信息 短缺 的 状况 得 到 了 根本 性 的 改观 ， 电 子 或 网 
络 信息 的 可 便捷 获取 使 人 类 生活 环境 变 为 数据 的 海洋 ， 过 去 的 数据 贫 
乏 转 变 成 了 今天 的 数据 爆炸 ， 数 据 像 漳 水 一 样 不 停 地 癌 人 们 涌 来 ， 使 
人 人 应接不暇 。 面 对 海量 的 数据 ， 人 们 常常 无 从 判别 什么 数据 才 是 目 己 
真正 需要 的 ， 或 者 说 有 用 而 真正 需要 的 数据 在 此 时 变 得 更 难 寻 找 。 一 


个 典型 的 事例 就 是 比尔 :盖世 为 了 在 每 天 收 到 的 400 多 万 封 电 子 邮 件 中 
找 出 十 多 封 可 能 有 价值 的 邮件 ， 不 得 不 组 织 一 个 专门 的 团队 处 理 这 些 
邮件 。 从 事 学 术 研 究 的 学 者 也 面临 如 何在 数不胜数 而 又 良 劳 不 齐 的 电 
子 信 息 资源 中 选取 有 效 资料 的 难题 。 即 使 是 普通 人 ， 也 可 能 整 天 者 
在 * 读 网 *， 泡 在 数据 和 信息 的 海洋 里 ， 却 感觉 一 无 所 获 。 此 时 人 们 就 
如 同 处 在 “绝对 的 光明 ”之 中 ， 同 样 什么 也 看 不 见 。( 针 


由 此 产生 的 屠 论 束 是 : 数据 到 撒 是 越 多 越 好 ， 还 是 越 少 越 好 ? 当 
数据 爆炸 式 增 长 的 时 候 ， 人 很 可 能 会 逐渐 形 失 判断 能 力 ， 节 终 沦 为 “ 数 
据 洪 流 ” 的 妈 隶 , “数据 和 信息 丰富 ， 但 是 思想 贫乏 ”的 奇特 现象 开始 出 
现 。 数 据 公 论 征 人 类 的 认识 活动 面临 的 新 挑战 、 者 困境 甚至 新 危机 ， 
同时 也 是 我 们 的 认识 获得 新 发 展 甚至 新 突破 的 新 机 遇 。 超 数据 时 代 将 
是 一 个 更 加 开放 、 更 加 复杂 的 巨 系统 ， 如 何 从 浩如烟海 的 数据 中 提炼 
出 有 用 的 信息 ， 对 不 确定 性 和 不 可 预知 性 实现 更 加 精准 的 预测 ， 是 可 
待 突破 的 关键 性 问题 。 


在 新 时 代 、 新 时 期 、 痢 问题 面前 ， 对 数据 科学 全 究 的 思路 与 方法 
也 应 当做 出 相应 的 转变 。 数 据 科 学 面临 的 首要 问题 是 存储 多 少数 
据 才 够 用 。 原 则 上 ， 在 数据 稀缺 的 时 代 是 数据 越 多 越 好 ， 在 数据 爆 
炸 的 时 代 则 起 数 据 越 精 越 好 、 越 有 序 越 好 。 在 脑 科 学 研究 专家 和 企业 
孵化 专家 杰 弗 里 .斯 蒂 伯 看 来 : “解决 问题 的 最 好 方法 是 具有 大 量 准 确 
的 信息 和 精确 的 计算 。 但 是 ， 恰 恰 是 根据 有 限 信 息 的 预测 ， 让 我 们 的 
大 脑 发 挥 思考 的 作用 。? 他 引用 德国 管理 大 师 歌德 ` 吉 仁 泽 的 话说 : “ 当 
一 个 人 不 得 不 预测 未 来 (或 者 一 些 现在 未 知 的 事情 ) 的 时 候 ， 当 未 来 
很 难 预见 的 时 候 ， 当 一 个 人 没有 太 多 信息 的 时 候 ， 基 于 一 条 适当 理由 
的 直觉 会 是 很 准确 的 。” 适 当 的 理由 可 以 使 我 们 具有 洞察 力 ， 所 以 最 有 
利于 做 出 判断 和 决策 的 情况 是 “有 刚刚 够 用 的 信息 ， 不 多 也 不 少 *”。 有 
研究 表明 ， 如 条 减少 信息 量 或 适当 拉 开 信息 呈现 的 间隔 ， 人 们 的 决定 
束 能 够 改变 ， 在 一 定 情况 下 甚至 信息 越 少 ， 人 们 越 容易 得 出 正确 的 管 


案 。 在 数据 和 信息 爆炸 的 今天 ， 数 据 和 信息 过 多 ， 反 而 使 得 人 们 难以 
做 出 正确 的 判断 和 决策 。 


其 次 是 不 断 扩 大 的 数据 规模 带 来 的 存储 问题 及 数据 资源 共 
享 带 来 的 管理 问题 。 传 统 数 据 库 的 规模 不 足 ， 而 且 原 有 的 检索 与 归 
档 方法 对 知识 发 现 是 不 合适 的 ， 数 据 科 学 关心 的 征 ， 要 提供 对 海量 数 
据 的 快速 存储 、 调 用 ， 对 用 户 查 询 不 规范 的 支撑 ， 进 而 不 断 优化 从 浩 
瀚 数据 中 发 掘 规律 的 能 力 。2012 年 美国 国家 癌症 研究 所 向 科研 界 提出 
面 问 21 世 纪 的 癌症 及 流行 病 学 领域 的 8 项 建议 ， 其 中 就 包括 整合 数据 科 
学 在 流行 病 学 方面 的 应 用 ， 强 调 要 制定 系统 的 方法 来 管理 、 分 析 、 显 
示 及 解释 大 量 复杂 的 数据 集 ， 并 文 持 可 扩展 和 可 持续 的 生物 信息 学 数 
据 存 储 。 


最 后 ， 由 科学 研究 、 商 业 交 易 、 社 群 交流 和 集成 处 理 等 产 
生 的 多 样 化 的 大 数据 ， 增 加 了 数据 集 的 复杂 性 ， 由 此 向 数据 科 
学 提出 了 系统 设计 、 数 据 深度 处 理 等 方面 的 挑战 。 数 据 采 集 、 
存储 、 管 理 与 深度 处 理 的 最 终 目的 古 挖 气 数 据 的 价值 ， 这 也 是 数据 科 
学 兴起 与 发 展 的 根本 。 将 碎片 化 、 多 维 异 构 的 海量 数据 融合 成 用 户 所 
需 的 全 局 性 或 者 创新 性 的 知识 ， 是 数据 科学 发 展 的 必然 选择 。( 同 


基于 块 数据 “开放 、 共 享 、 连 接 ” 的 数据 观 、 复 杂 性 的 系统 思维 ， 
以 及 人 工 智能 的 大 时 代 育 景 ， 为 超 数 据 时 代 的 数据 科学 市 来 了 者 的 局 
发 ， 开 辟 了 一 个 全 痢 的 视角 和 研究 方向 ， 激 活 数据 学 正 是 在 这 样 的 育 
景 下 产生 并 得 到 不 断 的 深化 研究 的 。 
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第 二 节 
激活 数据 学 的 提出 


(一 ) 激活 数据 学 的 由 来 


激活 数据 学 是 一 种 新 的 数据 科学 理论 与 方法 ， 其 目的 在 于 解决 超 
大 规模 数据 的 获取 、 和 筛选 、 融 合 、 计算 和 分 析 问 题 。 激 活 数 据 学 的 提 
出 ， 为 超 数 据 时 代 日 益 凸 显 的 数据 停 论 问题 提供 了 科学 的 和 现实 可 行 
的 途径 与 方法 。 激 活 数据 学 以 超大 规模 数据 为 研究 对 象 ， 以 超大 规模 
数据 在 块 上 集聚 为 基础 ， 以 实现 超大 规模 数据 的 有 效 存 储 和 精准 利用 
为 研究 目标 ， 以 “协同 感知 、 融 合 重 构 、 深 度 学 习 、 数 据 精 练 、 群 智 认 
知 和 智能 服务 ”为 原则 ， 创 建 了 一 套 基 于 复杂 理论 的 以 数据 搜索 、 关 联 
融合 、 目 激活 、 热 点 减 量化 、 群 体 知 能 为 核心 的 数据 处 理 框架 。 油 活 
数据 学 的 5 个 阶段 在 绪论 中 已 有 详细 的 介绍 。 


激活 数据 学 的 研究 素 焦 于 5 个 问题 ， 一 是 如 何 从 海量 数据 中 搜索 、 
精准 识别 出 与 研究 主体 相关 的 全 面 、 立 体 的 数据 ， 二 是 如 何 将 海量 无 
序 、 雄 刻 化 的 数据 整合 成 有 序 、 融 合 化 的 数据 ， 三 是 如 何 实 现 海 量 数 
据 的 高 性 能 智能 计算 ， 将 “无 意义 ”的 数据 转换 为 “有 用 ”的 知识 ; 四 是 
如 何 实现 海量 数据 的 精练 和 有 效 存 储 ; 五 是 如 何 基 于 海量 数据 实现 对 
复杂 问题 的 客观 、 精 准 、 稳 定 的 决策 。 


激活 数据 学 是 块 数据 理论 的 升级 版 ， 它 以 块 数据 为 基础 数据 资源 
层 ， 以 “数据 共 吾 、 互 联 互 通 、 业 务 协同 ?为 原则 ， 汇 聚 海量 跨行 业 、 
跨 领 域 的 数据 并 进行 融合 重 构 ， 构 建 目 由 流动 、 立 体 化 的 数据 存储 体 
系 ， 并 以 深度 神经 网 络 和 人 机 交互 接口 为 决策 分 析 层 ， 模 仿 人 脑 思考 


方式 和 群体 祝 能 ， 进 行 数据 挖掘 、 预 测 分 析 与 智能 决策 ， 提 升 决策 与 
分 析 的 智能 化 和 准确 率 。 


(二 ) 激活 数据 学 的 理论 框架 


德国 著名 物理 学 家 普 衣 克 认 为 :“ 科 学 古 内 在 的 整体 ， 它 被 分 解 为 
单独 的 整体 不 是 取决 于 事物 本 号， 而 是 取决 于 人 类 认识 能 力 的 局 限 
性 。 实 际 上 存在 着 从 物理 到 化 学 ， 通 过 生物 学 和 人 类 学 到 社会 学 的 连 
续 的 链条 ， 这 是 任何 一 处 都 不 能 被 打 断 的 链条 。” 目 然 界 本 有 是 一 个 具有 
多 样 性 的 有 机 整体 ， 人 们 为 了 人 研究 方便 ， 把 它 的 某 一 方面 从 有 机 整体 
中 割裂 出 来 作为 目 己 的 研究 对 象 ， 忽 略 其 环境 局 限 性 。 科 学 的 研究 方 
法 是 系统 性 的 研究 方法 ， 油 活 数 据 学 是 集合 多 领域 、 跨 学 科 的 系统 科 
学 。 激 活 数 据 学 的 理论 框架 如 图 2-1 所 示 。 


人 脑 科学 


| 


群体 智能 | ea 激活 数据 学 理论 框架 |eees | 社会 理论 


| 


复杂 适应 系统 
图 2-1 激活 数据 学 的 理论 框架 


人 脑 科 学 。 大 数据 技术 的 目的 是 进行 海量 数据 的 收集 、 存 储 和 
处 理 ， 并 在 此 基础 上 进行 规律 判断 和 趋势 预测 。 当 前 ， 大 数据 的 存储 
与 分 析 面 临 诸多 困难 ， 如 海量 数据 的 安全 廉价 存储 、 快 速 访问 、 高 效 
处 理 等 ， 这 些 都 要 求 研究 着 探寻 新 的 数据 处 理 模式 。 人 类 大 脑 是 目前 


已 知 的 信息 密度 最 大 、 结 构 化 程度 最 高 且 目 我 组 织 最 完整 的 东西 。 如 
此 强大 的 大 脑 运行 时 的 功率 仅 为 20 瓦 ， 一 台 性 能 同样 强大 的 计算 机 则 
需要 2 400 万 瓦 的 功率 才能 局 动 。 人 研究 大 脑 的 主要 目的 是 实现 机 融 对 人 
脑 的 模拟 ， 使 机 器 像 人 一 样 高 度 智 能， 具备 高 效率 、 低 能 耗 的 信息 处 
理 能 力 。 脑 科学 为 数据 科学 提供 了 新 的 方法 论 ， 催 生 着 对 深度 神经 元 
网 络 、 脉 冲 神 经 网 络 、 类 脑 计算 心 片 等 新 型 高 性 能 计算 方法 和 平台 的 
研究 。 人 工 智 能 和 人 工 神经 元 网 络 领域 就 是 对 人 脑 智能 模拟 的 一 种 答 
试 。 人 工 神经 元 网 络 即 通过 建立 网 络 连接 模拟 的 人 脑 神 经 元 网 络 ， 实 
现 某 些 人 脑 的 智能 和 计算 能 


在 思考 机 融 智 能 的 时 候 ， 我 们 可 以 将 人 类 智能 作为 参照 ， 甚 至 作 
为 最 重要 的 参照 ， 但 要 意识 到 ， 模 拟 智能 的 目的 并 不 是 完全 实现 人 类 
认 知 行为 能 力 的 完全 复制 ， 而 征 超 越 人 类 智能 ， 如 在 思考 速度 、 记 忆 
容量 、 感 知 能 力 、 系 统 复杂 度 、 可 复制 性 等 诸多 方面 实现 对 人 类 智能 
的 超越 。 神 经 元 是 以 每 秒 1 000 次 的 速度 工作 的 ， 而 硅 基 心 片 则 以 每 秒 
100 亿 次 的 速度 工作 ， 它 们 的 差别 是 1 000 万 倍 ， 这 意味 着 理论 上 如 采 
心 片 具备 了 思考 能 力 ， 它 的 思考 速度 是 人 类 的 1 000 万 倍 ， 这 将 给 我 们 
的 生活 市 来 很 多 不 可 思议 的 变化 。 所 以 ， 类 脑 计算 的 目标 不 会 停留 在 
复 现 大 脑 智能 计算 能 力 ， 而 应 该 是 实现 按照 大 脑 方式 进行 计算 、 诸 多 
方面 性 能 又 优 于 人 脑 的 计算 体系 。 


以 人 脑 的 工作 原理 指导 未 来 计算 技术 的 发 展 ， 让 计算 机 模拟 人 脑 
的 运行 机 制 ， 超 级 计算 机 及 其 他 大 功率 设备 的 能 耗 问 题 将 有 望 在 未 来 
得 到 解决 。 脑 科学 与 高 性 能 计算 技术 的 结合 将 成 为 探索 数据 处 理 高 效 
能 的 有 效 途 径 。 超 级 计算 机 的 运算 速度 能 够 达到 每 秒 千 万 亿 次 ， 但 是 
其 智能 水 平 极为 低下 ， 大 能 将 计算 机 的 高 性 能 与 人 的 高 智能 相 结合 ， 
那 00 0 0 的 效 


群体 智能 。 和 群体 是 人 类 应 对 自然 和 社会 挑战 、 推 动 社会 发 展 和 
进步 唯一 的 制胜 选择 ， 而 群体 智能 则 发 挥 着 至 天 重要 的 作用 。 群 体 智 
能 是 群体 所 具有 的 优 于 个 体 或 个 体 总 和 的 智慧 与 能 力 ， 和 是 “简单 智能 的 
主体 通过 合作 表现 出 复杂 智能 行为 的 特性 ”"， 是 受 目 然 界 生物 群体 所 表 
现 出 的 智能 现象 的 司 发 而 提出 的 一 种 人 工 智能 模式 。 群 体 智 能 表现 在 
其 获取 信息 的 能 力 ， 以 及 在 解决 问题 方面 的 优越 性 、 稳 定性 和 高 效率 
上 “。 该 智能 模式 需要 以 相当 数目 的 智能 体 来 实现 对 某 类 问题 的 求解 功 


侣 巴 
月 ° 


基于 互联 网 的 群体 智能 理论 和 方法 是 新 一 代 人 工 智能 的 核心 研究 
领域 之 一 ， 对 人 工 智能 的 其 他 人 研究 领域 具有 基础 性 和 文 撑 性 的 作用 。 
钱学森 在 20 世 纪 90 年 代 曾 提出 综合 集成 研讨 厅 人 体系， 强调 专家 群体 以 
人 机 结合 的 方式 进行 协同 研讨 ， 共 同人 研究 复杂 巨 系 统 的 挑战 性 问题 。 
《者 一 代 人 工 知 能 发 展 规划 》 明 确 提 出 群体 智能 的 研究 方向 ， 实 质 上 
正 是 综合 集成 研讨 厅 在 人 工 闹 能 新 时 代 的 拓展 和 深化 。 它 的 研究 内 泣 
不 单 是 关注 精英 专家 团体 ， 而 是 通过 互联 网 组 织 结构 和 大 数据 驱动 的 
人 工 智能 系统 吸引 、 汇 聚 和 管理 大 规模 参与 者 ， 以 竞争 和 合作 等 多 种 
目 主 协同 方式 共同 应 对 挑战 性 任务 ， 特 别 征 开放 环境 中 的 复杂 系统 决 
策 任 务 ， 请 现 出 来 的 超越 个 体 智 能 的 智能 形 仿 。 


在 互联 网 环境 中 ， 海 量 的 人 类 智能 与 机 融 智 能 相互 赋 能 增 效 ， 形 
成 人 机 物 融 合 的 群体 智能 空间 ， 以 充分 展现 群体 智能 。 其 本 质 上 有 是 互 
联网 科技 创新 生态 系统 的 智力 内 核 ， 将 辐射 包括 从 技术 研发 到 商业 运 
营 整 个 创新 过 程 的 所 有 组 织 及 组 织 间 关系 网 络 。 群 体 状 能 的 研究 不 仅 
能 推动 人 工 知 能 的 理论 技术 创新 ， 而 且 能 对 整个 信息 社会 的 应 用 创 
新 、 体 制 创新 、 管 理 创 新 、 商 业 创 新 等 提供 核心 驱动 力 。 


复杂 适应 系统 。 决 策 是 一 个 极其 复杂 的 命题 ， 特 别 是 随 着 经 济 
的 发 展 、 科 学 技术 的 进步 、 全 球 一 体 化 进程 的 加 快 和 超 数 据 时 代 的 来 
临 ， 各 行 各 业 面 临 的 古 一 个 日 益 复 洒 和 不 断 变化 的 环境 ， 决 集 问 题 变 


得 越 来 越 复杂 。 在 复杂 环境 中 决策 是 涉及 众多 因素 的 复杂 系统 ， 具 有 
巨 系统 性 、 开 放 性 、 不 确定 性 等 特性 ， 传 统 的 决策 分 析 方 法 往往 无 能 
为 力 。 复 杂 决 策 环 境 在 目 然 界 、 人 类 社会 大 量 存 在 ， 因 而 研究 复杂 环 
境 中 的 决策 尤为 重要 。 


复杂 系统 理论 征 系 统 科学 的 一 个 前 沿 方向 ， 它 是 系 统 科 学 的 延续 
和 发 展 。 复 杂 性 科学 被 称 为 "21 世纪 的 科学 ”， 它 的 主要 目的 就 是 揭示 
复杂 系统 的 一 些 难以 用 现 有 科学 方法 解释 的 动力 学 行为 。 我 们 把 面 对 
大 型 复杂 问题 的 决策 支持 系统 看 作 复 洒 适应 系统 ， 它 由 大 量 相对 独立 
和 平等 的 目 适 应 决策 主体 组 成 。 大 量 决策 主体 的 决策 结果 构成 了 主体 
的 决策 环境 ， 并 对 主体 决策 产生 影响 。 目 适应 就 是 指 决策 主体 能 够 根 
据 环 境 采 用 不 同 的 策略 。 复 淋 适 应 系统 理论 采用 “ 目 适 应 主体 ”这 个 概 
念 ， 是 为 了 强调 它 的 主动 性 ， 强 调 它 具 有 有 目 己 的 目标 、 内 部 结构 和 生 
存 动力 。 在 复杂 适应 系统 中 ， 所 有 个 体 都 处 于 一 个 共同 的 大 环境 中 ， 
但 各 目 又 根据 目 己 周围 的 局 部 小 环境 并 行 地 独立 进行 着 目 适 应 学 习 和 
演化 ， 个 体 的 这 种 目 适应 和 学 习 能 力 是 祝 能 的 一 种 表现 形式 ， 所 以 也 
有 人 把 这 种 个 体 称 为 智能 体 。 在 环境 中 演化 着 的 个 体 ， 为 了 生存 的 需 
要 ， 不 断 调 整 目 己 的 行为 、 修 改 目 身 的 规则 ， 以 求 更 好 地 适应 环境 选 
择 的 需要 ， 大 量 目 适 应 个 体 在 环境 中 的 各 种 行为 义 反 过 来 不 断 地 影响 
和 改变 着 环境 ， 结 合 环境 目 身 的 变化 规律 ， 动 态 变 化 的 环境 则 以 一 
种 “约束 ”的 形式 对 个 体 的 行为 产生 约束 和 影响 ， 如 此 反复 ， 个 体 和 环 
境 丈 处 于 一 种 永 不 停止 的 相互 作用 、 相 互 影响 、 相 互 进化 过 程 之 中 。 


社会 理论 。 社 会 学 是 一 门 系统 研究 人 类 社会 的 学 问 。 日 常 社会 
生活 ， 如 我 们 的 思想 、 行 为 、 情 感 、 决 策 、 互 动 等 ， 是 社会 力量 与 个 
人 性 格 特点 之 间 复 杂 的 相互 作用 的 产物 。 要 想 解释 人 们 为 什么 会 是 他 
们 所 呈现 的 样子 ， 为 什么 会 相信 他 们 所 相信 的 ， 或 者 为 什么 会 做 他 们 
所 做 的 事 ， 就 必须 理解 他 们 生活 于 其 中 的 人 际 网 络 、 历 史 环境 、 文 化 
环境 、 技 术 环 境 、 组 织 环境 和 全 球 环境 ， 不 论 是 想 了 解 个 人 还 是 社 
会 ， 我 们 都 必须 同时 理解 这 些 要 素 。 


互联 网 只 是 现实 社会 的 延伸 ， 大 数据 背后 是 社会 大 趋势 ， 在 现实 
生活 中 很 多 问题 具有 很 强 的 社会 性 ， 只 有 把 大 数据 和 社会 学 结合 起 
来 ， 才 能 把 人 群 刻 画 完整 ， 才 能 准确 地 洞察 趋势 。 现 在 获取 数据 的 渠 
道 足 够 多 ， 但 是 如 何 用 社会 学 变量 从 海量 数据 中 过 滤 出 有 价值 的 信 
尽 ， 从 而 精确 地 预测 行为 和 趋势 ， 这 是 需要 突破 的 。 


在 大 数据 和 社会 学 的 结合 上 ， 已 经 有 一 些 成 功 的 实用 案例 。 比 如 
堪 称 2016 年 最 大 的 黑 天 鹅 事件 一 一 特 表 普 在 美国 总 统 尝 选中 获胜 ， 背 
后 的 功臣 就 是 一 家 名 为 Cambridge Analytica (剑桥 分 析 ) 的 大 数据 分 
析 人 公司。 这 家 公司 按照 开放 性 、 尽 责 性 、 外 同性 、 随 和 性 和 情绪 稳定 
性 五 大 变量 划分 出 32 种 人 格 ， 每 种 人 格 都 有 不 同 的 社会 价值 取 疝 、 不 
同 的 风险 承担 能 力 、 不 同 的 政治 价值 观 。 通 过 有 意识 地 触及 并 癌 其 中 
一 些 人 推送 竞选 信息 ， 让 他 们 在 不 知 不 觉 中 认同 特 朗 普 ， 最 终 ， 这 些 
关键 的 少数 人 打破 了 原 移 的 平衡 , “改变 ”了 大 选 结 果 。 


(三 ) 激活 数据 学 的 时 代价 值 


当前 ， 人 工 知 能 的 发 展 超 乎 想象 ， 正 深刻 改变 着 人 们 的 生活 ， 改 
变 着 整个 世界 。 人 工 知 能 是 一 种 引领 诸多 领域 发 生 站 覆 性 变 单 的 前 党 
技术 ， 合 理 有 效 地 利用 人 工 智能 ， 意 味 着 能 获得 高 水 平价 值 创 造 和 竞 
争 优势 。 人 工 智能 并 不 是 一 个 独立 、 封 闭 和 自我 循环 发 展 的 智能 科学 
体系 ， 而 征 通 过 与 其 他 科学 领域 的 交叉 结合 融入 人 类 社会 发 展 的 各 个 
方面 的 。 云 计算 、 大 数据 、 可 穿戴 设备 、 知 能 机 器 人 等 领域 的 重大 需 
求 不 断 推动 人 工 知 能 理论 与 技术 的 发 展 。 激 活 数据 学 的 提出 ， 对 人 工 
智能 的 发 展 与 应 用 具有 重要 意义 。 


激活 数据 学 推动 人 工 智 能 突破 “计算 力 ” 瓶 颈 。 庞 大 的 数据 中 
心 及 必 片 技术 为 人 工 智 能 提供 基础 计算 环境 ，2012 年 6 月 “谷歌 大 脑 ” 运 
用 深度 学 习 的 研究 成 果 ， 使 用 1 000 台 电脑 创造 出 包含 10 亿 个 连接 


的 “神经 网 络 ”， 使 机 需 系 统 学 会 目 动 识别 猫 ， 成 为 国际 深度 学 习 领 域 
广为人知 的 案例 。 合 歌 的 神经 网 络 早 前 有 报道 称 已 经 具备 了 112 亿 个 参 
数 ， 也 下 是 说 将 有 数 万 台 服 务 郁 来 文 撑 。 束 在 2015 年 3 月 的 人 机 大 战 
中 ， 合 歌 也 调用 了 上 干 台 服务 句 资 源 。 可 想 而 知 ， 计 算 平 台 这 一 门 
棍 ， 将 会 使 得 人 工 智能 变 成 巨头 们 的 游戏 。 激 活 数 据 学 对 类 脑 计算 领 
域 的 研究 ， 将 推动 高 效率 、 低 能 耗 的 高 性 能 计算 技术 的 发 展 ， 高 性 能 
计算 技术 将 使 人 工 智能 的 推广 与 应 用 迎 来 新 一 轮 的 春天 。 


激活 数据 学 推动 人 工 智能 突破 “数据 ” 瓶 宽 。 虽 然 人 工 智能 战 
略 围棋 高 手 在 不 同 版 本 的 人 机 大 战 中 获得 了 不 容 忽 视 的 成 惑 ， 但 这 更 
多 的 是 一 场 科 技 秀 ， 以 此 癌 外 界 展示 自身 人 工 智能 技术 实力 。 阿 尔 法 
狗 (AlphaGo) 让 深思 (DeepMind) 公司 红 遍 全 球 ， 但 在 推动 人 工 智 
能 技术 实际 应 用 中 ， 目 前 还 没有 找到 其 他 成 熟 的 应 用 项 目 。 早 前 有 披 
露 阿尔 法 狗 的 缔造 者 深思 欲 进 入 医疗 领域 ， 改 善 医 疗 ， 但 缺乏 数据 、 
进展 缓慢 是 不 争 的 事实 。 据 了 解 ， 深 思 曾 与 NHS (英国 国家 医疗 服务 
体系 ) 达成 数据 授权 合作 ， 以 此 获得 了 NHS 约 160 万 名 患者 的 数据 ， 利 
用 该 数据 开发 一 个 通用 算法 ， 旨 在 帮助 医生 和 护士 诊断 急性 肾脏 损伤 
病例 。 当 然 ， 谷 歌 、Facebook (脸谱 网 ) 及 国内 的 BAT 等 互联 网 巨 
头 ， 其 数据 量 拥 有 绝对 的 优势 ， 利 用 其 人 工 智能 技术 改善 了 现 有 众多 
服务 。 不 可 否认 ， 正 是 由 于 他 们 在 人 工 智 能 领域 的 创新 ， 各 项 互联 网 
服务 和 产品 更 加 出 色 ， 但 在 提升 和 改善 目 身 业务 层面 以 外 进展 缓慢 ， 
其 根本 原因 在 于 目前 各 行 各 业 的 数据 仍然 处 于 条 数据 领域 ， 数 据 的 不 
流通 、 不 开放 制约 了 技术 的 发 展 和 应 用 。 激 活 数据 学 基于 块 数据 的 数 
据 观 ， 为 数据 共享 开放 提供 了 新 的 现实 路 径 ， 将 引领 人 工 智 能 理论 指 
导 回 更 广泛 的 领域 释放 价值 。 


激活 数据 学 推动 人 工 智能 迈 向 人 机 一 体 的 “强人 工 智能 ”。 
人 类 群体 、 大 数据 、 物 联网 已 经 实现 广泛 和 深度 的 互联 ， 使 得 人 类 与 
机 器 群体 智能 在 万 物 互 联 的 信息 环境 中 发 挥 的 作用 越 来 越 重 要 ， 由 此 
深刻 地 改变 了 人 工 智能 领域 , “互联 网 一 人 一 机 "一体 化 的 群体 智能 已 


成 为 解决 科学 难题 的 新 途径 。 人 工 智能 迈 入 了 新 的 发 展 阶 段 ， 痢 的 人 研 
完 方 向 和 新 范式 已 经 逐步 显现 出 来 ， 从 强调 专家 的 个 体 智 能 模拟 走 加 
群体 智能 ， 智 能 的 构造 方法 从 逻辑 和 单调 走 回 开放 和 请 现 ， 智 能 系统 
开发 方法 从 封闭 和 计划 走向 开放 和 竞争 。 人 所] 我 们 必须 依托 良性 的 互联 
网 科技 创新 生态 环境 实现 路 时 空地 汇聚 群体 智能 ， 高 效率 地 重组 群体 
智能 ， 更 广泛 而 精准 地 释放 群体 祝 能 。 激 活 数 据 学 是 一 种 群体 智能 的 
结构 理论 与 组 织 方 法 ， 通 过 研究 基于 群体 与 环境 数据 分 析 的 主动 感 
知 ， 突 破 群 体 智能 数据 关联 融合 汇聚 为 块 数据 技术 ， 并 人 研 完 在 开放 动 
仿 环 境 中 群体 与 机 器 的 协同 强化 、 回 环 演 进 的 问题 ， 构 建 形 成 人 机 协 
同 、 交 互 驱 动 的 演进 式 群体 智能 决策 系统 ， 实 现 开放 环境 中 复 洒 问题 
求解 和 智能 决策 ， 文 撑 形 成 群体 智能 “数据 一 知识 一 决策 目 动 化 ”的 完 
整 技术 链条 ， 对 于 解决 群体 智能 组 织 的 有 效 性 、 和 群体 智能 涌现 的 不 确 
定性 、 和 群体 智能 汇聚 的 质量 保障 、 和 群体 智能 交互 的 可 计算 性 等 科学 问 
题 具 有 重要 价值 。 
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03) .http://stdaily.com/index/kejixinwen/2017-08/03/content_ 564559.shtml. 


第 三 节 
激活 数据 学 与 数据 激活 机 理 


(一 ) 数据 搜索 : 智能 感知 


莹 住 一 个 人 的 双眼 ， 他 束 失 去 了 视 沉 感知 和 大 约 85% 的 信息 获取 
能 力 ， 因 此 会 在 行动 的 过 程 中 跟 跟 踊 踊 、 不 辩 方 向 、 屡 履 失 误 ， 显 示 
出 异乎 寻常 的 “笨拙 ?。 由 此 不 难 发 现 ， 一 个 系统 是 否 具有 对 外 界 信息 
的 感知 与 获取 能 力 ， 是 判断 该 系统 智能 与 否 的 关键 。 


人 类 之 所 以 比 其 他 生物 聪明 ， 是 因为 人 类 善于 “学 习 ”。 孩子 在 第 
一 次 站 起 来 直立 行走 、 第 一 次 谤 出 一 个 清晰 的 音节 、 第 一 次 拿 起 勺子 
号 绕 的 时 候 ， 都 完成 了 一 次 大 脑 的 洗礼 。 我 们 有 是 怎样 学 会 这 一 切 的 
呢 ? 答案 很 简单 : 是 在 与 环境 交互 作用 的 过 程 中 ， 在 个 体 大 脑 内 部 形 
成 的 。 大 脑 通 过 感觉 万 官 接收 信息 ， 在 脑 内 进行 数据 加 工 ， 然 后 输出 
言 轧 ， 产 生 反 应 ， 大 脑 通过 一 过 又 一 电 的 重复 积 素 ， 形 成 了 个 体 当 前 
所 具备 的 能 力 和 创造 性 。 大 脑 的 学 习 过 程 包括 以 下 3 个 基本 步骤 或 系 
统 : 信息 输入 、 模 式 加 工 、 动 作答 出 。 


觉 、 嗅 觉 、 和 触觉 、 味 觉 ) 组 成 ， 还 包括 其 他 几 种 日 常 基 本 功能 ， 如 前 
星系 统 、 本 体感 觉 系 统 等 。 实 际 上 ， 人 的 思考 、 推 理 、 记 忆 和 理解 能 
力 都 始 于 并 且 一 开始 束 完 全 依赖 这 个 信息 输入 系统 。 


数据 搜索 十 数据 激活 的 第 一 步 ， 古 激活 数据 学 的 基础 数据 准备 阶 
段 ， 为 机 器 学 习 准 备 大 量 数 据 作 为 “燃料 来 源 " 和 “ 助 推 镍 ?"， 突 破 传统 


传 感 大 的 感知 言 区 和 智能 局 限 ， 透 彻 感知 、 糊 确 朱 述 现实 物理 空间 的 
多 模 态 场景 信息 ， 实 现 复杂 物理 世界 的 数字 化 再 现 。 数 据 搜 索 是 解决 
数据 数量 和 数据 价值 获取 效率 之 间 矛 盾 的 唯一 途径 ， 在 过 去 的 几 年 
里 ， 我 们 生产 的 数据 占 全 部 人 类 文明 史上 所 有 数据 总 和 的 90%， 每 天 
产生 很 多 没有 价值 的 数据 ， 大 数据 的 难点 在 于 快速 识别 出 对 你 有 价值 
的 数据 。 面 对 网 络 上 浩如烟海 的 数据 ， 激 活 数 据 学 的 数据 搜索 通过 对 
数据 的 主动 搜索 和 目 我 的 深度 学 习 ， 实 现 对 数据 越 来 越 全 面 的 认识 ， 
构建 越 来 越 丰富 的 数据 特征 维度 ， 以 更 快 、 更 精准 地 搜索 到 目标 主 
体 。 在 数据 获取 方面 ， 不 漫 无 目的 地 追求 大 而 全 的 数据 ， 因 为 大 数据 
追求 的 “N= 所 有 ”的 全 样本 是 无 法 实现 的 ， 而 是 以 人 为 原点 ， 重 视 往 选 
过 的 有 价值 的 战略 数据 。 通 过 精准 有 效 的 数据 搜索 ， 机 器 势 作 会 成 为 
学 得 最 快 、 最 好 的 学 生 。 


(二 ) 关联 融合 : 智能 聚合 


在 超 数据 时 代 ， 除 了 “4V” 亿 特征 之 外 ， 大 数据 还 表现 出 了 新 的 特 
征 。 一 是 交织 性 (Hybrid) 。 数 据 碎片 化 分 布 在 信息 空间 、 物 理 世 
界 和 人 类 社会 三 元 空间 中 ， 客 观 事物 在 不 同 空 间 留 下 了 碎片 化 、 不 完 
整 的 数字 足迹 。 为 了 全 面 刻画 事物 全 狗 ， 需 要 充分 发 据 和 利用 三 元 空 
间 的 交织 性 与 互补 性 ， 对 碎片 化 数据 实现 优质 聚合 。 二 是 超 维 性 
(Hyper) 。 数 据 片段 之 间 的 关联 关系 空前 复杂 多 变 。 在 三 元 空间 
中 ， 单 一 空间 中 的 数据 只 能 反映 事物 某 一 方面 的 特征 ， 只 有 融合 三 元 
空间 的 关联 数据 ， 对 各 类 数据 、 信 息 实 现 高 效 的 整合 ， 才 能 解决 人 类 
科学 与 知识 探索 中 “ 育 人 措 象 "的 问题 。 


人 的 大 脑 是 一 个 天 然 的 多 源 信息 融合 系统 。 人 和 动物 有 不 同 的 感 
害 ， 他 们 用 眼睛 看 、 用 耳 朱 昕 、 用 血 头 符 ， 由 此 获得 不 同 质 的 信息 ， 


如 影像 、 声 音 、 味 道 等 。 大 脑 会 综合 处 理 这 些 不 同 质 的 信息 ， 以 判定 
对 象 的 属性 、 本 质 等 ， 这 就 是 自然 界 对 异 构 信息 的 融合 处 理 。 人 四 


如 果 说 数据 搜索 能 够 让 我 们 搜索 到 更 丰富 、 更 精准 的 数据 ， 这 些 
数据 是 通过 不 同 质 的 传 感 絮 对 各 种 对 象 进行 信息 获取 的 ， 那 么 激活 数 
据 学 中 的 关联 融合 则 是 对 这 些 多 源 异 构 信 息 进 行 融 合 处 理 ， 有 是 激活 数 
据 学 的 数据 预 处 理 阶段 。 关 联 融 合 通 过 探究 大 脑 信息 融合 的 内 在 机 
制 ， 采 用 融合 重 构 的 方法 实现 对 多 源 异 构 数 据 的 关联 表达 ， 探 索 数 据 
的 内 在 关联 性 ， 这 是 全 面 认 知 与 理解 数据 的 前 提 ， 让 我 们 能 够 在 海 
量 、 复 杂 、 碎片 化 的 三 元 空间 中 更 清晰 地 刻画 客观 事物 的 全 狐 ， 构 建 
人 与 人 之 间 、 人 与 事物 之 间 、 事 物 与 事物 之 间 的 相互 联系 ， 为 人 人 之 
间 、 人 机 之 间 的 深度 融合 建立 了 一 个 通道 。 


(三 ) 目 激活 : 智能 决策 


拥有 数据 并 不 代表 什么 ， 如 果 数 据 不 能 转换 为 知识 和 决策 ， 那 么 
数据 再 多 也 是 没有 意义 的 。 知 识 的 生产 、 积 素 与 应 用 ， 征 人 类 智能 的 
重要 特征 。 人 类 通过 对 目 然 信 息 的 感知 上 升 到 知识 的 高 度 ， 并 在 群体 
间 分 享 、 代 代 传 水 ， 确 保 了 种 群 在 竞争 中 的 领先 性 ， 由 此 缆 延 数 百 万 
年 ， 发 展 至 今 。 


学 习 ， 是 人 类 搭建 从 数据 到 知识 的 桥梁 所 采用 的 方法 ， 是 人 类 重 
要 的 智能 行为 之 一 。 人 类 的 智能 之 所 以 远 超 其 他 动物 ， 不 仅仅 是 因为 
我 们 感知 、 认 知 的 范围 和 深度 是 后 者 无 法 比拟 的 ， 更 是 因为 我 们 从 感 
知 、 认 知 中 通过 学 习 总 结 出 知识 ， 将 其 转化 为 存储 在 大 脑 中 的 记忆 并 
加 以 利用 。 


2011 年 谷歌 的 迪 恩 和 斯 坦 福 大 学 计算 机 系 的 吴 恩 达 在 未 来 技术 实 
验 中 心 联合 发 起 了 “谷歌 大 脑 * 研 究 计 划 ， 该 计划 通过 模拟 婴儿 的 大 脑 


发 育 环境 研究 人 脑 的 物体 识别 和 语言 认 知 等 功能 。 他 们 利用 谷歌 的 云 
计算 平台 搭建 了 一 个 配备 16 000 个 CPU 神经 元 和 10 亿 个 突 触 神经 连接 
的 谷歌 大 脑 计 算 平台 。 为 了 收集 有 效 的 能 够 表征 人 类 生活 环境 的 数 
据 ， 他 们 从 视频 网 站 谷歌 YouTube 上 随机 选取 了 1 000 万 个 视频 ， 从 每 
个 视频 里 随机 获取 一 个 200x200 像 素 的 截屏 ， 相 当 于 模拟 婴儿 用 眼睛 
不 断 观 察 到 的 周转 环境。 数据 收集 完成 后 ， 他 们 用 圣 顿 2006 年 提出 的 
深度 学 习 分 层 训 练 模型 和 自我 编码 解码 校 验 方式 自动 对 这 1 000 万 张 图 
片 进 行 特征 抽取 与 分 析 。 这 一 项 目的 目标 之 一 是 查看 该 模型 的 分 层 抽 
象 特 征 提取 方式 能 否 最 终 产 生 一 批 高 度 异 化 的 “祖母 神经 元 ”。 结 果 该 
实验 不 但 发 现 了 模拟 状态 的 祖母 神经 元 的 存在 ， 而 且 发 现在 抽象 最 高 
层 形 成 物体 判断 的 神经 元 中 居然 有 一 个 对 应 猫 的 面部 图 像 ， 也 束 是 
说 ， 通 过 深度 学 习 ， 该 人 工大 脑 形成 了 对 猫 的 印象 。 深 度 学 习 也 在 很 
多 领域 证 明了 其 模拟 人 脑 的 有 效 性 。 


虽然 深度 学 习 取 得 了 阶段 性 的 成 果 ， 但 是 与 人 脑 比 起 来 ， 机 器 管 
能 仍然 存在 很 大 的 差距 。 从 计算 机 的 计算 能 力 来 看 ， 根 据 目 前 对 人 脑 
的 最 新 认识 ， 人 的 大 脑 皮 质 共 有 大 约 860 亿 个 神经 元 ， 能 够 以 每 秒 
200MB 的 速度 进行 并 行 运算 。 新 生 婴 儿 大 脑 皮 质 的 每 个 神经 元 有 大 约 2 
500 个 突 触 ， 两 三 岁 时 增加 到 15 000 个 ， 达 到 峰值 。 成 年 后 每 个 神经 元 
的 突 触 数量 大 约 为 7 500 个 。 相 比 之 下 ，2012 年 设计 的 谷歌 大 脑 总 共有 
16 000 个 CPU 神经 元 和 10 亿 个 突 触 神经 连接 ， 复 杂 度 远 不 及 人 脑 。 事 
实 上 ， 就 算 把 谷歌 计算 平台 所 拥有 的 全 部 服务 器 〈 总 数量 为 儿 百 万 
台 ) 用 于 大 脑 认 知 模拟 ， 也 难以 达到 一 个 普通 人 脑 的 神经 元 的 数量 和 
关联 度 。 生 命 现象 本 身 为 机 器 智能 树立 了 榜样 和 标杆 ， 但 机 器 智能 要 
想 妃 赶 人 类 的 脚步 ， 仍 然 有 很 长 的 路 要 走 。 


经 过 数据 搜索 和 关联 融合 过 程 后 ， 激 活 数据 学 仍然 停留 在 “ 数 
据 ? 的 阶段 。 激 活 数 据 学 利用 多 智能 体 技 术 构 建 复 杂 系 统 来 模拟 人 脑 智 
能 产生 的 过 程 ， 对 复杂 性 问题 进行 建 模 。 目 激活 二 激活 数据 学 的 核心 
环节 ， 上 有 具 有 目 主 性 的 智能 体 采 用 深度 神经 网 络 学 习 的 方法 将 数据 转换 


为 知识 和 决策 ， 这 征 激 活 数 据 学 从 “数据 ?到 “知识 ”的 跃迁 。 每 个 智能 
体 即 一 个 独立 的 “大 脑 ”， 用 “激活 ?来 形象 地 说 明智 能 体 的 学 习 过 程 ， 
智能 体 通 过 学 习 “ 激 活 ? 个 体 知 能， 类 似 人 通过 学 习 和 掌握 解决 某 一 问题 
的 能 力 。 窜 能 体能 根据 外 界 环境 的 变化 目 动 调整 目 己 的 行为 和 状态 ， 
而 不 是 仅仅 被 动 接收 外 界 的 刺激 ， 具 有 目 我 管理 、 目 我 调节 的 能 

不 同 的 乔 能 体 可 根据 各 目的 意图 与 其 他 智能 体 交 互 ， 能 积累 或 学 习 经 
验 和 知识 ， 并 修改 目 己 的 行为 以 适应 新 环境 。 


(四 ) 热点 减 量化 ， 智能 筷 选 


记忆 是 人 脑 对 过 去 经 历 过 的 事物 的 反映 。 并 不 是 所 有 经 验 都 能 保 
存在 记忆 中 ， 许 多 信息 在 短 时 记忆 中 束 被 遗 生 了。 在 人 的 大 脑 中 ， 海 
马 体 是 短 时 记忆 的 重要 生理 基础 ， 奋 仁 体 是 长 时 记忆 的 重要 生理 基 
础 。 海 马 体 在 学 习 过 程 中 发 挥 着 信息 和 角 选 的 作用 ， 选 择 有 必要 记忆 的 
言 轧 送 进 徊 仁 体 形成 长 时 记忆 ， 短 时 记忆 则 在 保持 约 30 秒 后 逐渐 衰 
退 、 遗 起 和 形 失 。 当 大 脑 皮 质 再 次 接收 同样 信息 的 刺 沿 时 ， 束 会 从 长 
时 记忆 中 提取 出 才干 已 存储 的 信息 与 再 次 接收 到 的 单元 融合 ， 形 成 狐 
的 记忆 单元 ， 这 就 完成 了 知识 的 重 构 ， 进 而 完成 知识 创造 。 


大 脑 的 般 选 机 制 帝 给 我 们 的 局 示 和 是， 在 人 脑 智能 产生 的 过 程 中 ， 
大 脑 并 不 会 记 取 所 有 外 界 刺 激 产 生 的 反应 ， 而 是 只 留 下 最 有 价值 的 部 
分 ， 这 为 我 们 处 理 海量 信息 提供 了 一 个 思路 。 机 器 模拟 人 类 产生 智能 
古 一 个 数据 量 和 计算 量 非常 庞大 的 工程 ， 如 何 用 最 少 的 资源 最 好 、 最 
快 地 达到 学 习 的 目标 和 效果 ， 古 推动 人 工 知 能 快速 发 展 和 大 范围 应 用 
的 重要 人 研究 内 容 。 


激活 数据 学 的 热点 减 量 化 从 这 一 原理 出 发 ， 基 于 多 层次 的 饶 选 机 
制 ， 将 有 限 的 计算 和 存储 资源 分 配给 最 具 价 值 的 数据 单元 ， 实 现 资源 
的 最 优 配置 ， 提 高 数据 处 理 的 效率 ， 为 下 一 阶段 更 好 、 更 快 地 产生 群 


体 智 能 提供 了 环境 文 撑 和 资产 保障 。 减 量化 的 思维 是 超 数 据 时 代 有 效 
的 数据 处 理 路 径 之 一 ， 能 够 动态 过 滤 掉 大 量 无 效 的 、 会 对 预 判 结果 产 
生 王 扰 的 数据 ， 实 现在 有 限 成 本 约束 条 件 下 数据 价值 挖掘 的 最 大 化 。 


(五 ) 群体 智能 : 智能 碰撞 


生物 群体 的 群集 行为 ， 以 及 所 表现 出 的 远 远 超 过 个 体 智 能 的 群体 
智能 引发 了 科学 家 对 群体 的 人 研究， 群体 智能 甚至 比 最 专业 的 个 体 表现 
还 要 好 ， 科 学 家 做 了 各 种 实验 和 答 试 来 证 明 这 一 结论 。 


2007 年 哥伦比亚 大 学 商学 院 做 了 猜测 糖果 数据 的 实验 ， 在 玻璃 铅 
中 放 满 糖果 ， 人 然后 请 一 群 人 来 猜 糖 采 的 数量 ， 记 隶 每 个 人 的 答案 、 答 
案 的 平均 数 及 其 与 正确 答案 之 间 的 关系 。 糖 采 的 实际 数目 为 1 116 颗 ， 
73 个 人 参加 实验 ， 平 均 数 为 1 115 颗 ! 73 个 人 的 个 人 答案 其 实 有 天 壤 之 
别 ， 离 正确 数字 相关 很 还 ， 但 是 最 后 群体 得 出 的 答案 几乎 接近 正确 答 


中 | 
案 。 昌 ) 


2016 年 ， 社 交工 具 UNUM 也 开始 了 一 项 特别 的 党 试 ， 通 过 发 挥 
其 “电子 媒介 的 和 儿 合剂 >? 作用， 将 人 们 黏合 在 一 起 ， 产 生 和 群体 智能 。 这 
种 群体 智能 可 以 回答 问题 、 进 行 决策 、 想 出 点 子 ， 甚 至 可 以 表达 观 
点 。 这 个 人 工 群 体 党 试 着 解决 一 些 众 所 周知 的 问题 : 预测 美国 职业 格 
此 球 联盟 季 后 赛 、 电 影 金 球 奖 及 奥斯卡 奖 的 结果 。 在 所 有 情况 下 ， 群 
体 智能 的 表现 都 远 远 将 个 人 用 在 了 身后 。 


激活 数据 学 最 终 的 目的 是 将 数据 转换 为 解决 具体 问题 的 决策 ， 这 
古 激 活 数 据 学 的 价值 所 在 ， 在 目 激 活 阶 段 癌 能 个 体 产 生 了 个 体 决 策 ， 
相当 于 群体 中 所 表现 出 的 个 体 知 能， 为 了 提升 决策 的 准确 性 和 稳定 
性 ， 在 智能 碰撞 这 一 阶段 ， 将 引入 人 的 作用 ， 形 成 人 和 机 共同 组 成 的 
一 个 智能 群体 ， 通 过 人 类 与 机 硕 协 同 强化 涌现 出 的 超越 个 体 鹤 能 的 群 


体 智能 ， 儿 对 复杂 问题 做 出 高 效 、 精 准 的 决策 。 一 方面 ， 人 机 结合 是 
提高 我 们 在 不 确定 性 环境 中 做 预测 和 判断 的 能 力 的 主要 方式 。 综 合 利 
用 机 器 闹 能 和 人 类 智能 ， 突 破 各 目的 局 限 和 在 某 种 程度 上 达到 协同 作 
用 ， 对 于 解决 复杂 问题 是 一 个 新 的 途径 。 另 一 方面 ， 群 体 在 做 出 更 好 
的 判断 和 决策 上 ， 比 群体 内 的 任何 个 体 都 要 好 ， 利 用 高 度 组 织 化 的 智 
能 实现 判 果 和 预测 力 的 提升 。 


1. 4V 指 规模 性 (Volume) 、 多 样 性 (Variety) 、 高 速 性 (Velocity) 和 价值 性 
(Value) 。 一 一 编者 注 
2. 军 . 韩 崇 有 曲 : 仿生 信息 融合 的 开拓 者 | EB/OL | . (2014-10- 
28) .http://www.scichi.cn/content.php?id=1004. 
3. 九州 .如 何在 互联 网 时 代 激 发 群体 智能 [| .中 外 管理 ，2016 (4) : 88-89. 


4. 林 思 恩 .1+1>2 = 群体 智能 : 10 个 有 关 群 体 智能 的 启示 [EB/OL | . (2015-12- 
08) .https://www.jianshu.com/p/08e9b5bc3417. 
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第 二 
数据 搜索 ， 省 能 感知 


在 科技 发 展 日 新 月 异 的 今天 ， 大 数据 、 人 工 智 能 、 物 联网 、 智 能 
传 感 等 融 新 技术 逐渐 渗透 到 我 们 的 生活 、 工 作 中 ， 为 人 类 经 济 的 发 
展 、 生 活 的 便利 市 来 了 巨大 的 进步 。 从 发 展 脉 络 看 ， 人 工 智 能 一 直 处 
于 技术 创新 的 前 治 ， 近 年 来 更 是 呈现 集中 爆发 态势 ， 在 智能 搜索 、 人 
机 交互、 可 罕 戴 设备 等 领域 受到 了 前 所 未 有 的 重视 ， 成 为 产业 界 和 争夺 
的 前 沿 领域 。 


如 采 将 人 工 智能 比 作 人 类 的 大 脑 ， 那 互联 网 则 是 人 体 头 部 的 血 
管 ， 一 个 抵达 各 部 位 的 网 状 系统 ， 而 数据 和 信息 便 是 最 重要 的 能 够 为 
大 及 活动 提供 人 EB 量 的 血液 ， 它 们 也 是 机 器 进行 深度 学 习 所 必需 的 输入 
量 和 人 赋 完 基 础 。 然 而 ， 随 厦 人 工 智能 时 代 的 来 临 ， 是 否 拥有 数据 已 经 
不 再 重要 ， 重 要 的 是 如 何 快速 找到 所 需 的 数据 。 搜 索引 擎 的 出 现 解 决 
了 数据 数量 和 价值 获取 效率 之 间 的 矛盾 ， 让 数据 分 析 挖 气 和 增值 利用 
产生 了 更 加 明显 的 效果 。 


数据 搜索 是 激活 数据 学 中 的 准备 阶段 ， 其 延续 了 传统 数据 搜索 的 
是 
智能 程度 达到 了 “ 走 一 步 ， 想 十 步 *"， 能 在 分 析 前 期 关联 的 基础 上 ， 预 
见 性 地 进行 目 主 搜索 ， 发 现 所 有 关联 的 数据 ， 为 更 精准 的 预 判 搜 集 全 
面 的 数据 资源 。 可 以 说 ， 基 于 激活 数据 学 的 数据 搜索 推动 人 工 稼 能 
好 地 理解 人 类 和 感知 世界 实现 质 的 飞跃 。 


第 一 节 
智能 感知 与 交互 


(一 ) 生物 感知 


大 千 世 界 ， 不 少 动 植物 体内 的 “时 钟 * 比 人 类 对 于 时 间 的 感觉 更 加 
目 觉 、 更 加 准确 。 候 乌 能 准确 地 知道 目 己 的 出 发 日 期 及 时 刻 ， 昆 虫 和 
某 些 植物 也 有 类 似 的 感知 能 力 。 在 田野 里 到 处 飞翔 、 采 集 花 蜜 的 蜜蜂 
体内 束 有 十 分 准确 的 时 钟 ， 知 道 什么 论 在 上 午 可 采 到 花蜜， 什么 花 在 
下 午 可 采 到 花蜜。 地 震 前 ， 植 物 能 感知 到 地 震 即 将 炮 发 ， 并 随 着 不 同 
的 时 间 相 应 地 产生 变化 和 反应 。 


一 般 而 言 , “ 感 "是 信息 获取 的 过 程 ， 通 过 感知 方法 、 机 制 和 设备 
获取 自身 、 其 他 对 象 与 物理 环境 的 各 种 物理 信息 ， 而 “ 知 ” 则 更 多 的 是 
利用 “ 感 "获取 的 信息 进行 识别 、 推 理 、 判 断 与 决策 。( 生 有 些 东 西 是 我 
们 用 眼睛 看 不 到 的 ， 如 黑暗 中 的 物体 ， 但 我 们 可 以 凭借 手 和 身体 感知 
它们 的 存在 。 有 些 东 西 是 我 们 无 法 用 手 和 身体 触摸 到 的 ， 如 远 处 的 物 
体 或 者 风景 ， 但 我 们 可 以 用 眼睛 感知 它们 的 存在 。 有 些 东 西 我 们 无 法 
用 眼睛 看 到 ， 也 无 法 用 手 和 身体 碰 触 到 ， 如 歌声 、 音 乐 、 话 语 等 ， 但 
我 们 可 以 用 耳 打 感知 它们 的 存在 。 还 有 一 些 东 西 是 我 们 的 感官 无 法 直 
接 感觉 到 的 ， 如 紫外 线 、 红 外 线 、 细 胞 、 粒 子 与 电磁 波 等 ， 我 们 可 以 
制造 各 种 仪器 ， 借 助 工具 感知 它们 的 存在 。 


还 有 一 种 情况 ， 通 过 腿 、 耳 、 愉 、 天 、 身 、 意 获取 外 面 的 信息 ， 
肥 馈 给 心神 ， 瞬 间 得 到 管 案 或 相应 的 缘起 缘 火 等 信息 。 这 是 一 种 特殊 
的 修 者 的 境界 或 状态 。 人 类 用 心 念 来 诠释 目 己 大 官 所 接收 的 信号 ， 称 


为 感知 。 为 什么 我 们 能 够 感知 到 呢 ? 因为 人 体 的 每 个 器 官 (包括 感 
觉 、 生 殖 与 内 脏 器 官 ) 都 是 外 在 世界 信号 的 “接收 器 ?， 只 要 是 它 范围 
内 的 信号 ， 经 过 某 种 刺激 ， 髓 官 束 能 将 其 接收 ， 并 转换 成 感觉 信号 ， 
再 经 由 目 身 的 神经 网 络 传输 到 我 们 心 念 思 维 的 中 心 一 “头脑 ”中 
行情 感 格 式 化 的 处 理 ， 之 后 就 产生 了 我 们 的 感知 。 


， 进 


感知 的 意义 范围 很 广 ， 主 要 意思 十 客观 事物 通过 感觉 郁 官 在 人 脑 
中 的 直接 反映 。 感 知 能 力 则 是 通过 感觉 絮 官 感觉 某 样 不 可 视 或 者 肉眼 
无 法 直接 观察 的 物体 ， 并 能 通过 感觉 描绘 出 其 具体 形状 或 者 运动 状态 
的 一 种 超 能 力 。 这 种 能 力 不 是 人 人 和 缘 有 的 ， 但 是 通过 后 天 大 量 的 刻 天 
练习 ， 人 可 以 获得 一 定 程 度 的 这 种 能 力 ， 比 如 可 以 感觉 出 背后 某 物体 
的 形状 、 颜 色 、 运 动 状 态 。 其 实质 是 物体 癌 外 辐射 的 红外 线 被 人 体 回 
外 辐射 的 脑 电流 擒获 ， 在 脑 部 形成 对 该 物体 一 定 的 判断 。 


所 有 生物 都 具备 感知 能 力 ， 都 有 感 与 知 的 天 系 。 感 和 知 十 生物 具 
备 的 本 能 ， 感 知 能 力 在 不 同 物种 、 不 同 个 体 间 各 不 相同 ， 感 和 知 都 是 
在 本 能 作用 和 存在 环境 里 目 然 形成 的 。 作 为 蝙 蝇 饵 食 的 神色 蛾 、 尺 蛾 
或 叶 卷 蛾 等 昆虫 ， 听 到 蝙蝠 发 出 的 超声 波 ， 束 知道 为 保护 目 己 而 进行 
防御 。 只 要 蜗 蝠 飞 进 30 米 防线 ， 蛾 殉 马 上 合 上 翅膀 ， 从 至 中 急速 掉 落 
地 面 。 当 蝙蝠 不 在 附近 时 ， 蛾 会 再 次 飞 起 。 蛾 也 许 有 能 听 a 到 蝙蝠 发 出 
的 超声 波 的 耳 朱 吧 ? 科学 家 对 蛾 的 听觉 部 位 做 了 研究 ， 认 为 在 其 胸部 
和 躯干 之 间 ， 也 束 是 在 腰部 两 旁 ， 好 像 有 一 对 能 感知 超声 波 的 俗 官 ， 
构造 非常 答 单 ， 功 能 却 十 分 优越 。 这 对 万 官 有 感觉 神经 细胞 ， 能 放大 
超声 波 的 振动 ， 并 把 信号 传 到 大 脑 而 决定 其 行动 。 


当 蜗 蝠 飞 来 时 ， 无 论 从 哪个 侧面 问 蛾 逼近 ， 蛾 的 神经 细胞 都 会 产 
生 较 强 的 信号 ， 于 是 蛾 为 防止 被 捕捉 而 做 锅 次 形 或 复杂 形式 的 飞行 ， 
以 此 逃避 。 当 蝙蝠 飞 至 约 6 米 距 离 时 ， 蛾 的 感觉 细胞 就 产生 更 强 的 脉 
冲 ， 频 率 急剧 加 快 ， 这 样 ， 蛾 只 好 停止 飞行 ， 迅 速 掉 落 到 地 面 上 。 蜂 
诱 镍 蝙蝠 的 这 个 行动 ， 实 际 上 早 在 蝙 蝙 意 料 之 中 。 先 前 正 飞 同 蛾 的 蝙 


晤 突然 改变 方向 售 算出 蛾 落下 时 的 轨迹 路 线 ， 在 蛾 挥 落地 面 之 前 隶 住 
它 ， 蛾 成 为 蝙蝠 口中 之 物 。 


感知 力 在 人 和 高 级 动物 的 个 体 生存 过 程 中 发 挥 着 超越 应 激 反 应 的 
积极 作用 ， 是 与 环境 互动 ， 发 生 知觉 反应 的 根本 原因 。 人 类 拥有 高 级 
的 语言 能 力 、 思 维 能 力 、 学 习 能 力 ， 很 多 人 认为 人 类 不 能 和 其 他 动物 
相提并论 ， 但 是 为 什么 在 很 多 灾难 到 来 之 前 ， 动 物 都 会 有 一 些 预感 并 
办 避 灾 难 ， 而 人 类 这 种 最 高 级 的 动物 却 完全 没有 意识 到 ， 只 能 坐 以 行 
组 。 人 们 研究 认为 ， 过 去 的 人 类 也 具有 类 似 动物 的 感知 能 力 ， 现 在 却 
由 于 某 种 原因 削弱 了 这 种 能 力 。 直 觉 是 所 有 动物 的 本 能 ， 人 类 也 是 赁 
音 直 觉得 以 生存 延续 至 今 的 。 人 类 的 祖先 一 定 也 拥有 优 于 其 他 动物 的 
本 能 ， 才 能 在 大 目 然 中 完美 进化 。 从 某 种 意义 上 说 ， 人 类 文明 是 一 个 
人 类 对 世界 和 目 己 不 断 认 知 的 过 程 ， 所 谓 认 知 就 古 对 有 用 的 数据 一 一 
信息 进行 采集 过 滤 、 加 工 处 理 、 预 测 输 出 、 调 整 反 馈 的 全 过 程 。 


(二 ) 机 右 感 知 


人 的 感知 通过 计算 机 离散 化 处 理 方式 可 被 记录 、 被 量化 、 被 计 
算 。 通 常 来 说 ， 机 器 感知 束 古 借助 各 种 传 感 融 识别 周边 环境 ， 这 些 传 
感 絮 相当 于 人 的 眼 、 耳 、 蜡 、 皮 肤 等 。 比 如 视觉 感知 ， 类 比 人 类 的 视 
觉 系 统 ， 用 摄影 头 代 奉 人 眼 对 目标 进行 识别 、 跟 蹊 和 测 量 等 。 当 前 ， 
服务 机 器 的 计算 机 视觉 已 经 相当 完善 了 ， 如 人 脸 识 别 、 图 像 识 别 、 害 
位 测 距 等 。 可 以 说 ， 在 为 人 类 提供 服务 时 , “看 得 见 东 西 ” 的 机 器 比 “ 宦 
人 ”机 器 有 用 得 多 。 再 如 声音 感知 ， 语 首 症 人 机 交互 最 常用 、 最 便捷 的 
方式 ， 由 此 ， 对 服务 机 器 而 言 ， 语 音 识别 是 必 备 的 重要 功能 之 一 。 

计算 机 将 人 的 感知 活动 合理 地 “分 割 ? 或 “碎片 化 "， 把 对 感知 的 “ 整 


体 性 ”、 连续 性 分 析 转 化 为 “个 体 性 ?的 离散 化 处 理 。 这 种 离散 化 处 理 束 
征 对 人 的 感知 的 整体 进行 解构 ， 展 示 为 相互 关联 的 独立 特征 ， 然 后 通 


过 汇总 特征 达到 对 人 的 感知 的 整体 把 握 。 这 样 的 过 程 是 基于 离散 的 角 
度 解构 与 重 构 感知 活动 ， 在 现实 和 虚拟 的 离散 空间 中 完成 的 。 计 算 机 
通过 对 抽象 化 数据 的 信息 加 工 ， 即 编码 、 存 储 、 提 取 、 遗 起 ， 实 现 对 
人 的 数据 的 可 识别 、 可 感知 。 人工 智 能 和 计算 机 模拟 作为 侧重 于 关注 
实际 应 用 的 认 知 信息 加 工 理论 中 最 具 代 表 性 的 独特 的 研究 方法 ， 大 多 
通过 对 人 脑 心理 过 程 的 模拟 对 人 的 内 部 信息 加 工 过 程 进行 逻辑 分 析 。 


人 工 智能 的 本 质 是 对 人 类 思维 的 信息 过 程 的 模拟 ， 和 是 人 类 智能 的 
物化 。 机 器 思维 〈 即 人 工 智 能 ) 表明 ， 思 维 形式 在 思维 活动 中 对 于 思 
维 内 容 具 有 相对 独立 性 ， 它 可 从 人 脑 中 分 化 出 来 ， 物 化 为 机 械 、 物理 
的 运动 形式 ， 部 分 地 代 奉 人 的 思维 活动 。 机 器 与 人 脑 的 本 质 区 别 在 于 
其 本 喘 古 一 种 无 意识 的 机 械 活动 的 过 程 ， 而 人 类 的 意识 是 长 久 以 来 文 
明 社 会 长 期 进化 发 展 的 产物 ， 是 人 类 在 生理 基础 上 的 心理 过 程 ， 是 人 
类 由 人 情感、 直觉 、 想 象 等 一 系列 的 精神 活动 构成 的 精神 世界 。 人 类 智 
能 在 执行 任务 和 工作 时 会 考虑 主观 与 客观 的 因素 来 进行 决策 、 行 动 ， 
它 征 社会 的 产物 ， 而 机 大 智能 则 是 被 动 地 接受 一 种 逻辑 指令 来 开展 工 
作 。 二 者 相 比 较 ， 总 是 人 脑 思 维 优先 于 机 融 思 维 。 


人 类 拥有 “ 完 形 " 认 知 的 心理 能 力 ， 能 让 我 们 把 碎片 信息 编制 完 
整 。 这 是 一 种 高 度 统合 的 能 力 ， 我 们 能 把 躯体 五 感 统合 起 来 ， 共 同 构 
成 对 世界 的 感觉 。 续 同样 ， 人 从 各 个 方面 得 到 的 碎片 知识 也 有 一 种 统 
合 的 能 力 ， 大 脑 会 把 碎片 粘贴 起 来 ， 把 碎片 之 间 的 部 分 补 齐 ， 以 期 构 
成 一 个 完整 的 知识 世界 ， 而 机 器 缺少 物理 世界 的 生活 经 验 ， 处 理 的 是 
人 类 的 二 手 信息 ， 对 于 周围 的 物理 世界 缺乏 真实 接触 。 虽 然 目前 人 工 
智能 已 经 可 以 精细 识别 人 类 的 表情 ， 能 够 读 懂 人 的 情绪 ， 但 是 其 缺乏 
对 于 他 人 心理 的 常识 系统 ， 仍 然 难以 “理解 "* 人 类 日 常 的 语言 。 因 此 
人 工 智 能 和 人 类 智能 最 大 的 差异 或 许 是 ， 真 实 世 界 与 抽象 符号 之 间 的 
关联 性 。 人 工 智能 处 理 的 是 符号 与 符号 之 间 的 关系 ， 而 人 类 头脑 处 理 
的 是 真实 世界 到 符号 的 投影 。 馈 


认 知 科学 的 目 主 感知 和 人 类 对 目 身 及 所 处 环境 的 目 主 感知 一 样 ， 
首先 通过 视觉 、 昕 觉 和 触觉 等 类 似 的 传 感 硕 获 取 庞 大 的 目 身 及 外 界 环 
境 中 的 各 种 信息 。 盈 无 疑问 ， 这 些 信 息 是 海量 的 ， 如 采 不 经 处 理 便 直 
接 交 给 处 理 能 力 有 限 的 大 脑 ， 束 会 导致 系统 过 载 。 海 量 信 息 中 只 有 一 
小 部 分 对 系统 的 某 一 认 知 行为 起 主导 作用 ， 所 以 没 必要 进行 信息 得 
选 ， 这 样 能 提高 系统 的 认 知 效率 。 因 此 ， 基 于 认 知 科学 的 智能 加 工 机 
亏 的 感知 机 理 也 需要 能 够 选择 与 智能 机 硕 目 主 感知 相关 的 特征 。 基 于 
认 知 科学 的 感知 内 容 主要 包括 信息 获取 、 学 习 经 验 知识 、 推 理 决 策 等 
方面 。 


感知 是 连接 主体 (智能 机 器 ， 与 客体 的 桥梁 ,虽然 研究 中 常常 把 
感知 问题 如 计算 机 视觉 、 语 音 识别 等 孤立 出 来 进行 研究 ， 但 很 多 问题 
征 和 主体 环境 密 不 可 分 的 ， 对 于 这 类 问题 如 目 动 要 台 、 机 各 人 导航 
等 ， 必 须 与 主体 相 结 合 。 这 种 结合 为 感知 系统 和 作为 主体 的 状 能 机 器 
提供 了 很 好 的 互补 信息 ， 典 型 的 情形 如 主体 的 运动 可 以 为 视觉 系统 提 
供 从 不 同 角度 观察 环境 的 能 力 ， 从 而 弥补 了 视觉 系统 基线 长 度 受 限 ， 
以 及 成 像 光 照 和 姿态 的 问题 ， 同 时 可 以 提供 从 对 象 已 知 视 角 学 习 未 知 
视角 表示 的 能 力 ， 变 化 头 部 位 置 与 朝 同 同样 为 听 沉 系统 提供 了 更 加 准 
确 地 辨认 声 源 的 能 力 。 同 时 ， 不 同感 知 邵 官 间 相 互补 充 ， 可 以 提供 对 
客体 的 更 加 完整 的 表达 与 理解 。 一 旦 感知 系统 随 主体 进入 真实 环境 ， 
就 不 可 避免 地 需要 面 对 开 集 问 题 ， 以 往 财 集 条 件 下 的 一 些 假设 如 解 的 
存在 性 束 不 再 能 够 得 以 保障 ， 因 而 问题 的 难度 将 大 大 增加 。 与 此 同 
时 ， 与 主体 结合 的 感知 一 旦 出 错 ， 付 出 的 代价 也 会 大 大 增加 。 


(三 ) 交互 识别 


不 管 钙 人 类 还 十 机 器 ， 感 知 都 钙 最 基层 的 ， 而 认 知 则 钙 往 上 再 进 
一 步 的 升华 。 在 认 知 的 基础 上 ， 服 务 机 器 才能 理解 人 类 的 各 个 方面 ， 


才能 与 人 类 更 目 然 地 交互 。 感 知 为 希 能 机 器 提供 了 被 动 的 信息 获取 能 
力 ， 相 对 于 感知 而 言 ， 交 互 可 以 提供 一 定 程度 上 的 主动 能 力 ， 这 种 交 
互 能 力 为 感知 增加 了 从 多 维度 主动 获取 信息 的 能 力 ， 如 同 所 有 动物 的 
感知 系统 ， 脐 离 交 互 的 感知 其 获取 信息 的 能 力 是 非常 有 限 的 。 从 孤立 
问题 进行 研究 的 角度 ， 感 知 和 交互 看 似 古 相互 独立 的 ， 实 际 上 却 淄 肖 
苹 紧 密 相关 的 。 感 知 为 交互 的 探索 提供 了 关于 交互 对 象 、 交 互 强度 、 
交互 效果 的 信息 ; 与 此 同时 ， 交 互 则 为 感知 提供 了 多 维度 的 感知 能 
力 。 以 前 我 们 是 以 机 妖 为 中 心 进行 交互 的 ， 示 来 在 万 物 互联 溉 潮 下 ， 
会 以 人 为 中 心 进 行 交 互 ， 人 根据 语音 的 控制 、 视 觉 的 控制 ， 配 合 手 的 
操作 完成 交互 。 


从 作为 计算 机 载体 的 其 他 设备 / 闭 置 的 角度 来 看 ， 计 算 机 也 不 再 是 
单一 采 板 的 控制 台 形 象 。 小 到 手表 ， 大 到 各 种 航行 器 ， 计 算 机 在 其 中 
扮演 着 不 可 或 缺 的 重要 角色 。 因 此 ， 除 了 需要 和 人 类 用 户 交 互 之 外 ， 
计算 机 还 需要 和 目 然 环境 交互 ， 因 而 其 感知 和 交互 的 对 象 不 仅仅 是 人 
类 ， 还 有 各 种 真实 世界 。 例 如 ， 对 机 器 而 言 ， 需 要 与 其 拥有 者 及 之 外 
的 其 他 人 和 环境 进行 区 互 。 当今 的 大 型 飞机 更 像 一 台 会 飞行 的 计算 
机 ， 其 在 目 动 飞行 及 育 降 过 程 中 都 需要 和 环境 进行 有 效 的 交互， 这 了 台 
要 求 计算 系统 具备 感知 外 界 的 能 力 ， 实 现 类 似 人 类 的 感知 功能 。 近 年 
来 ， 人 工 智能 也 已 经 进入 新 一 轮 的 快速 发 展期 ， 有 一 点 是 明确 的 ， 感 
知 和 交互 除了 是 智能 行为 目 身 最 好 的 体现 外 ， 还 是 智 能 发 育 的 基础 和 
文 撑 。 


人 类 得 以 在 目 然 界 中 长 期 生存 ， 一 个 重要 的 原因 就 十 拥有 迅速 认 
识 并 理解 其 所 处 环境 的 能 力 ， 而 这 其 中 的 关键 环 世 是 利用 人 类 视觉 系 
统 完成 对 目标 的 定位 与 识别 ， 同 时 实现 对 视觉 场景 的 理解 与 描述 。 如 
果 计 算 机 能 够 实现 目 动 的 图 像 识别 ， 必 将 进一步 丰富 与 方便 人 类 生 
活 ， 这 促使 图 像 识别 技术 成 为 当前 人 工 入 能 领域 重要 的 研究 方 同 之 
一 。 图 像 识 别 是 指 利用 计算 机 视觉 、 模 式 识别 、 机 器 学 习 等 技术 方 
法 ， 目 动 识别 图 像 中 存在 的 一 个 或 多 个 语义 概念 ， 广 义 的 图 像 识 别 还 


包括 对 识别 的 概念 进行 图 像 区域 定 位 等 。 图 像 识别 技 术 可 以 满足 用 户 
在 不 同 场景 下 的 视觉 应 用 需求 ， 主 要 包括 面向 互联 网 的 图 像 检 索 与 挖 
气 、 面 癌 移 动 设备 和 机 磊 人 等 智能 终端 的 人 机 对 话 与 信息 服务 等 。 


视觉 识别 拉 术 在 机 器 人 的 领域 也 扮演 着 举足轻重 的 角色 。 作 为 机 
絮 人 感知 外 界 环境 信息 的 一 个 重要 输入 渠道 ， 其 对 于 机 如 人 理解 周围 
场景 和 辅助 完成 特定 任务 具有 人 至 关 重 要 的 作用 。 目 前 视觉 识别 技术 在 
机 如 人 领域 的 应 用 主要 有 环境 理解 、 目 学 习 物 体 识别 和 智能 交互 、 寻 
航 与 避 障 等 。 面 向 机 右 人 的 视觉 识别 技术 不 同 于 其 他 单纯 的 视觉 识别 
方法 ， 其 具有 一 定 的 交互 能 力 (语言 、 动 作 等 和 多 感知 能 力 (深度 
信息 感应 器 、 定 位 装置 等 ) ， 对 于 机 器 人 的 视觉 能 力 可 以 起 到 一 定 的 
辅助 作用 。 图 像 识 别 技术 同时 识别 人 脸 和 物体 ， 可 以 帮助 关联 理解 用 
户 意 图 和 兴趣 爱好 。 目 前 受到 广泛 关注 的 图 像 描述 和 问答 技术 也 会 很 
快 和 机 器 人 的 视觉 交互 应 用 相 结 合 ， 产 生 新 的 研究 内 容 和 应 用 场景 ， 
从 而 进一步 促进 视觉 识别 技术 的 发 展 和 进步 。 


随 着 大 数据 、 机 器 学 习 、 云 计算 、 人 工 知 能 等 技术 的 发 展 ， 语 音 
识别 在 一 步 步 解 放 用 户 的 双手 ， 语 音 输入 框 也 大 有 取代 鼠标 、 键 盘 之 
势 。 伴 随 痢 智 能 移动 设备 的 普及 ， 语 音 交 互 作为 一 种 新 型 的 人 机 交互 
方式 ， 正 越 来 越 引 起 整个 IT 业界 的 重视 。 如 何 让 智能 语音 从 “ 听 到 ?” 进 
化 到 “ 听 慌 *"， 实 现 语音 服务 的 通用 化 ， 更 多 地 服务 于 现实 生活 场景 ， 
更 好 地 普 囊 于 移动 互联 网 有 用户， 尽管 仍 有 障碍 坚 等 逾越， 但 这 必 将 是 
规模 工业 化 的 重点 突破 方 同 。 在 智能 语 首 专家 看 来 剥离 了 诸多 衍生 
服务 、 仅 集中 于 语音 技术 的 时 代 已 经 过 去 ， 未 来 的 规模 工业 化 发 展 趋 
势 已 然 显 现 ， 下 一 阶段 的 变 章 之 旅 正 在 开启 。 


新 兴 的 万 物 互 联 时 代 需 要 新 的 交互 方式 ， 人 们 已 开始 从 智能 手机 
的 触摸 模式 转 同 智能 家 居所 必需 的 远 场 语音 交互， 这 样 的 交互 离 不 开 
智能 语音 和 语言 技术 的 文 返 。 甚 至 有 人 认为 ， 语 音 交 互 将 会 成 为 数据 
智能 的 第 一 个 爆发 点 ， 下 一 轮 的 入 口 之 争 将 再 次 出 现 。 从 互联 网 诞生 


之 日 起 ， 搜 索 框 便 成 为 人 们 进入 互联 网 的 重要 入 口 ， 但 语音 识别 一 经 
出 现 ， 搜 索 框 的 地 位 束 被 动 播 ， 在 未 来 或 将 逐步 锌 取 代 。 目 前 语音 识 
别 技术 遇 到 的 瓶 颈 是 对 口音 、 噪 声 、 远 场 的 识别 。 其 中 ， 基 于 深度 学 
习 的 个 性 化 识别 ， 有 征 未 来 语音 识别 技术 全 面 普及 与 应 用 的 重大 挑战 。 
在 真实 的 应 用 场景 上 下， 说话 者 、 环 境 、 设 备 三 个 因素 县 加 在 一 起 ， 使 
语音 识别 的 应 用 场景 更 加 复杂 。 如 何 处 理 这 些 不 确定 性 ， 成 为 摆 在 研 
发 人 员 面 前 的 一 项 重大 挑战 。 
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第 二 节 
搜索 引擎 : 连接 人 与 信息 


(一 ) 从 "“ 寻 物 "到 “ 搜 数 ” 


宇宙 间 万 事 万 物 的 变化 其 实 痢 是 “ 数 ” 的 变化 四 ， 世 界 的 本 源 即 是 
数据 。 在 一 切 寡 可 量化 的 社会 中 ， 数 据 搜索 发 挥 着 越 来 越 重要 的 作 
用 。 人 类 大 脑 根据 搜索 目标 的 相关 特征 ， 构 建 目标 画像 ， 并 逐步 学 习 
积 素 更 多 相关 特征 ， 使 画像 进一步 清晰 ， 最 终 精 准 地 找到 目标 。 事 实 
上 ， 计 算 机 有 着 和 人 脑 一 样 的 工作 方式 ， 深 大 学 习 更 接近 人 类 的 学 习 
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人 和 计算 机 一 样 都 要 存储 信息 ， 也 因此 必然 具有 使 这 种 存储 成 为 
可 能 的 结构 和 加 工 过 程 ， 人 脑 也 第 第 需要 对 信息 进行 重新 编码 ， 即 改 
变 信息 被 记录 和 呈现 的 方式 ， 还 必须 操作 这 些 信息 一 一 以 某 种 方式 改 
变 其 形式 ， 如 重新 排列 、 增 减 信 息 、 从 中 进行 推演 等 。 一 切 痢 是 数 
据 ， 视 觉 、 听 和 觉 、 曝 觉 等 所 有 感官 信息 进入 大 脑 后 部 会 变 成 数据 。 如 
同 计算 机 处 理 二 进 制 数据 一 样 ， 人 类 大 脑 也 有 目 己 的 数据 格式 ， 并 且 
会 把 外 界 的 感知 都 转换 成 符合 目 己 格式 的 数据 。 知 党 的 信息 加 工 理论 
认为 ， 外 部 刺激 或 信息 经 由 感觉 器官 进入 人 的 大 脑 ， 大 脑 根据 感觉 材 
料 的 性 质 及 存储 在 记忆 中 的 原 有 知识 和 经 验 对 这 些 材料 进行 加 工 ， 然 
后 形成 印象 或 知觉 。 


目下 而 上 的 加 工 过 程 ， 或 称 数 据 一 驱动 加 工 过 程 ， 指 的 钙 知 觉 者 
从 环境 中 细小 的 信息 开始 ， 将 它们 以 各 种 不 同 的 方式 加 以 组 合 以 形成 
知觉 。( 同 自 上 而 下 或 概念 驱动 加 工 是 指 由 当时 的 情境 、 过 去 的 经 验 或 


两 者 共同 产生 的 期 望 所 引导 的 加 工 过 程 。 亿 例如 ， 有 人 告诉 你 此 时 你 
所 在 的 房间 里 有 只 苍蝇 ， 你 会 往 哪儿 看 ? 想象 如 有 果 你 要 找 的 古 只 蜂 蛛 
或 赚 螂 ， 又 会 往 哪 儿 看 ? 对 这 些 生物 的 过 去 经 验 会 引导 你 首先 朝 什么 
地 方 看 ， 是 墙壁 、 地 面 还 古 天 伦 板 ? 你 可 以 将 这 一 寻找 不 同 昆虫 的 知 
觉 加 工 看 作 目 上 而 下 式 的 ， 你 的 期 望 和 经 验 引 导 着 你 搜寻 的 方向 。 


当然 ， 目 上 而 下 的 加 工 必 须 和 目下 而 上 的 加 工 共 同 作用 ， 人 否则 你 
将 永远 不 可 能 知觉 到 未 曾 预 期 的 事物 。 我 们 遇 到 并 期 望 从 中 获得 意义 
的 每 个 物体 、 事 件 或 其 他 刺激 ， 都 会 与 先前 已 经 存储 的 模式 或 模板 进 
行 比 较 。 因 此 ， 知 觉 的 过 程 包括 将 输入 信息 与 已 经 存储 的 模板 进行 比 
较 ， 并 从 中 找 出 一 种 匹配 的 模板 。 如 条 有 几 个 模板 都 与 之 匹配 或 接 
近 ， 我 们 就 需要 通过 进一步 的 加 工区 分 出 哪个 模板 最 为 合适 。 请 注 
意 ， 这 一 模型 意味 着 在 我 们 的 知识 库 中 已 经 存储 了 数 以 百 万 计 的 不 同 
模板 ， 即 每 个 我 们 可 以 辨认 的 不 同 物体 或 模式 都 有 一 个 与 之 匹配 的 模 
板 存 在 。 


人 脑 中 所 有 被 知觉 的 数据 都 具有 高 度 的 关联 性 ， 这 就 是 为 什么 我 
们 看 到 一 幅 画面 会 联想 起 很 多 相关 的 东西 。 看 着 自己 养 的 一 条 狗 ， 不 
仅 能 认 出 它 ， 而 且 能 辨认 它 的 每 个 部 位 ， 耳 朱 、 自 子 、 尾 巴 、 背 部 、 
爪子 、 胸 部 和 眼睛 等 。 与 将 刺激 作为 一 个 整体 进行 加 工 不 同 ， 我 们 也 
可 能 将 刺激 分 解 为 不 同 的 成 分 ， 根 据 我 们 对 部 分 的 认识 推断 出 整体 代 
表 的 是 什么 。 这 些 被 搜寻 和 辨认 的 部 分 称 为 特征 。 因 此 ， 在 这 个 模型 
中 ， 对 整个 物体 的 认识 依赖 对 其 特征 的 辨识 。 特 定 的 探测 器 注 会 对 输 
入 的 模式 进行 扫描 ， 以 寻找 一 种 特定 的 特征 。 如 果 该 特征 存在 ， 探 测 
器 就 会 迅速 做 出 反应 ， 如 果 该 特征 不 存在 ， 探 测 器 就 不 会 有 强烈 的 反 
应 。 每 种 探测 器 显然 只 负责 探测 一 种 特征 的 存在 。 


在 介绍 数据 搜索 之 前 ， 我 们 需要 首先 讨论 搜索 的 本 质 性 问题 : 在 
数据 时 代 ， 我 们 搜索 的 到 克 是 什么 ? 这 吏 引 出 一 个 基本 问题 : 数据 、 
信息 和 知识 这 三 个 基本 概念 有 什么 本 质 区 别 ? 事实 上 ， 在 单纯 的 表示 


形式 上 ， 是 很 难 区 分 数据 、 信 息 和 知识 的 ， 任 何 东西 在 计算 机 中 都 表 
示 成 数据 符号 ， 如 ASCII (美国 信息 交换 标准 代码 ) (时 字符 等 。 只 
通过 关系 ， 这 些 数 据 符号 才 有 可 能 进一步 区 分 为 信息 和 知识 。 从 石 句 
时 代 到 信息 时 代 ， 人 类 的 发 展 离 不 开 知 识 与 信息 ， 通 过 不 断 地 学 习 新 
知识 ， 收 集 各 种 各 样 的 信息 ， 社 会 得 到 了 发 展 和 进步 。 通 常 ， 信 息 的 
外 延 十 分 宽泛 ， 知 识 定 有 序 化 的 部 分 信息 ， 征 同类 信息 的 积聚 。 搜 索 
言 居 本 映 并 不 古 目 的 ， 因 为 信息 的 很 大 一 部 分 是 无 用 的 信息 垃圾 。 相 
反 ， 人 们 在 搜索 某 些 信 息 时 总 市 着 某 些 目的 ， 希 望 搜索 到 的 信息 能 够 
帮助 他 们 达到 这 些 目的 。 信 息 加 上 用 户 的 目的 ， 实 际 上 才 构 成 知识 。 
因此 ， 数 据 搜索 的 是 知识 ， 而 不 古 信息 。 


言 息 时 代 ， 实 际 上 经 历 了 一 个 从 “人 找 信 息 ”* 到 “信息 找 人 ”的 过 
程 。 在 “人 找 信息 ”的 时 代 ， 比 如 ， 我 们 最 初 的 广播 模式 一 一 听 收 音 机 
或 看 电视 ， 是 信息 推送 给 我 们 的 ， 但 信息 并 不 知道 我 们 是 谁 。 随 着 互 
联网 技术 的 发 展 、 搜 索引 擎 的 出 现 ， 我 们 知道 如 何 快速 找到 需要 的 信 
思 。 未 来 ， 拥 有 海量 数据 的 万 物 互联 时 代 ， 搜 索引 擎 要 求 “ 信 息 找 
人 ”更 主动 、 更 全 面 ， 而 且 快 捷 、 高 效 地 提供 所 需 的 信息 ， 从 而 使 得 事 
物 之 间 的 联结 不 断 癌 着 智 能 化 的 方 问 发展 ， 最 终 让 机 套 代 表 人 去 控 握 
言 妨 、 获 取 知 识 、 发 现 规 律 。 因 此 ， 让 机 器 更 履 人 ， 这 十 人工 智 能 真 
正成 功 的 标志 。 从 各 种 各 样 的 数据 中 快速 获取 有 价值 信息 的 能 力 ， 对 
于 认 知 科学 的 发 展 至 关 重 要 ， 同 时 也 意味 着 人 类 大 数据 思维 范式 的 真 
正 形 成 。 


(二 ) 谷歌 搜索 : 主流 动 的 信息 产生 智能 


早 在 2001 年 ， 谷 歌 创 始 人 拉 里 ' 佩 奇 对 谷歌 的 定位 束 是 人 工 智能 。 
2011 年 ， 为 了 深入 研究 人 工 知 能， 知名 的 谷歌 又 实验 室 创 建 了 内 部 代 
写 为 谷歌 大 脑 的 人 工 帝 能 项 目 。 随 着 搜索 技术 的 不 断 发 展 ， 合 歌 正 朝 


一 个 轿 新 的 技术 前 沿 大 步 过 进 ， 合 歌 能 真正 理解 你 提出 的 问题 ,并且 
给 出 相应 的 答案 ， 不 仅仅 是 展示 人 简单 匹配 关键 字 的 搜索 结 末 ， 还 能 够 
提供 现实 世界 中 的 知识 解答 一 一 将 来 的 某 天 甚至 能 够 达到 智 翡 搜索 引 
擎 的 程度 。 


制造 气 人 类 思维 匹配 的 智能 。 谷 歌 搜索 的 最 大 创新 是 引入 新 
算法 Page Rank (网 页 排名 ) 。 首 先 ， 合 歌 机 器 人 获取 每 个 可 访问 网 站 
的 内 容 。 这 些 数据 将 被 分 解 成 一 个 索引 《通过 文字 进行 组 织 ， 就 像 书 
本 的 目录 ) ， 这 样 就 可 以 根据 内 容 找到 任何 页 面 。 每 当 用 户 键 入 一 个 
查询 ， 谷 歌 束 会 在 索引 中 搜寻 相关 页 面 ， 然 后 返回 一 个 包含 多 达 数 百 
万 个 页 面 的 列表 。 最 复杂 的 是 对 列表 进行 排序 ， 也 台 是 决定 哪些 页 面 
应 该 出 现在 最 上 面 。 此 时 ， 上 下 文 便 有 了 用 武之 地 。 所 有 搜索 引擎 都 
会 引入 上 下 文 ， 但 没有 一 个 像 谷 歌 那 样 引 入 得 那样 多 、 应 用 得 那样 目 
如 。Page Rank 本 身 也 是 一 个 信号 ， 同 时 也 是 页 面 的 一 个 属性 〈 指 其 相 
对 于 其 他 网 页 的 重要 性 ) ， 该 属性 可 以 帮助 确定 其 与 查询 内 容 的 相关 
性 ， 其 中 的 一 些 信号 在 现在 看 来 是 显而易见 的 。 


谷歌 在 对 查询 结果 进行 过 滤 处 理 时 ， 对 于 通常 的 查询 ， 会 把 相关 
的 专题 性 垂直 搜索 结果 〈 如 新 闻 、 购物 、 视 频 、 书 籍 、 地 图 等 ) 也 加 
到 返回 的 查询 结果 中 。 在 个 性 化 方面 ， 用 户 访问 过 的 网 站 在 得 询 结 采 
列表 中 会 更 靠 上 。 大 量 使 用 销 点 的 网 站 有 可 能 被 从 碍 询 结 采 中 删除 。 
谷歌 的 搜索 结 末 具 有 聚 篮 性 : 如 有 果 网 页 被 其 他 Page Rank 徘 前 的 网 站 引 
用 ， 则 网 页 的 重要 性 会 大 大 提高 。 与 此 同时 ， 对 搜索 流量 骏 增 或 有 大 
量 新 闻 的 搜索 关键 词 ， 谷 歌会 在 新 的 查询 结 采 中 增加 额外 的 Page Rank 
权 值 ， 以 作为 趋势 分 析 。 合 歌 经 过 初步 查询 ， 结 果 的 排序 、 别 除 、 过 
滤 ， 最 终 返 回 给 浏览 夯 端 用 户 的 ， 是 一 个 人 性 化 的 、 布 局 民 好 的 、 碍 
询 结 有 末 和 广告 泾 滑 分 明 的 有 机 查询 结果 页 面 。 


构造 知识 图 谱 数 据 。2012 年 ， 谷 歌 推出 了 知识 图 谱 ， 所 谓 知识 
图 谱 ， 简 而 言 之 就 是 深度 控 气 搜索 词 潜在 的 知识 关系 ， 以 呈现 更 结构 


化 的 搜索 结果 。 从 杂乱 无 草 的 网 页 到 结构 化 的 实体 知识 ， 搜 索引 擎 可 
以 通过 知识 图 谱 为 用 户 提供 更 具 条 理 的 信息 ， 甚 至 顺 着 知识 图 谱 可 以 
探索 更 深入 、 广 泛 和 完整 的 知识 体系 ， 让 用 户 发 现 他们 意 想 不 到 的 知 
识 。 合 歌 知 识 图 谱 是 在 知识 绾 理 过 程 中 ， 为 应 对 海量 知识 检索 挑战 ， 
由 谷歌 公司 提出 并 构建 的 基于 语义 网 络 沁 的 大 规模 知识 库 。 基 于 本 体 
和 语义 网 技术 ， 合 歌 知 识 图 谱 通 过 搬 述 现实 世界 中 的 各 种 实体 及 其 复 
杂 关 系 ， 将 多 种 异 构 的 知识 库 关 联 起 来 ， 并 构建 基于 图 的 统一 的 结构 
化 语义 网 络 知识 库 ， 在 此 基础 上 实现 智能 检索 和 知识 推理 。 


如 条 未 来 的 搜索 引擎 是 机 郝 人 的 大 脑 ， 那 么 知识 图 谐 则 是 这 个 大 
脑 的 知识 库 ， 任 何 决策 都 依赖 此 知识 库 。 知 识 图 谱 是 搜索 引擎 能 够 进 
行 答案 寻找 、 实 时 对 话 、 信 息 预 测 的 数据 基础 ， 它 古 一 次 从 信息 时 代 
进入 知识 时 代 的 草 命 性 变化 ， 知 识 图 谱 将 成 为 未 来 怖 能 机 占 的 “智慧 之 
库 、 机 器 之 心 >。( 周 知识 图 谱 是 通过 大 数据 提炼 出 的 数据 库 ， 其 构建 
让 搜索 引擎 变 得 更 加 聪明 。 知 识 图 谐 用 图 的 结构 描述 着 真实 世界 中 的 
万 千 实 体 与 实体 关系 ， 十 现代 搜索 引擎 智能 化 程度 的 体现 ， 它 不 仅仅 
征 一 次 技术 的 更 新 ， 更 征 下 一 代 搜 索引 擎 的 基础 。 知 识 图 谱 通 过 知识 
发 现 、 知 识 推理 、 知 识 计算 、 知 识 聚 类 等 将 单一 的 知识 串联 为 信息 价 
值 ， 不 断 完善 知识 图 谱 体 系 结构 ， 实 现 知识 图 谱 价 值 最 大 化 ， 使 得 知 
识 图 谱 最 大 限度 地 为 不 同人 群 服务 。 


谷歌 让 搜索 引擎 更 加 智能 。 几 个 世纪 以 前 是 数据 为 王 的 时 代 ， 
如 果 你 识字 、 可 以 阅读 ， 如 果 你 是 那个 知道 事实 最 多 的 人 ， 你 在 这 个 
世界 上 惑 拥 有 巨大 的 优势 。 现 在 的 世界 已 经 改变 ， 通 晓 多 少 事 似乎 不 
再 重要 ， 只 要 轻 融 几 下 键盘 ， 你 束 能 得 到 想 要 了 解 的 一 切 数 据 ， 但 今 
天 ， 还 有 比 这 更 重要 的 事 ， 那 束 是 如 何 利 用 这 些 数据 。 如 何 将 片段 数 
据 集中 起 来 并 转化 成 有 用 的 信息 ? 如 何 将 有 用 的 信息 转化 成 知识 ， 并 
最 终 转 化 成 留 慧 ? 所 谓 的 将 数据 转化 成 信息 ， 指 的 是 从 原始 数据 的 海 
洋 中 找到 表面 相关 联 的 事实 。 谷 歌 搜 索 已 经 这 么 做 了 一 一 提取 网 页 、 


视频 、 图 像 等 原始 数据 ， 将 它们 整理 成 与 你 的 查询 相 匹配 的 相关 信 


“ 接 下 来 ， 我 们 希望 能 够 提取 信息 ， 并 使 其 更 容易 消化 ， 便 于 你 更 
加 迅速 地 决定 如 何 使 用 该 信息 。 我 们 已 经 通过 “快速 回答 ' 符 试 这 样 
做 。 如 采 你 询问 谷歌 “帝国 大 厦 有 多 高 之 类 的 问题 ， 谷 歌 将 提供 搜索 
结果 页 面 上 的 最 佳 猜想 答案 ， 将 你 链接 到 该 知识 点 。 ”谷歌 科学 家 兼 高 
级 副 总 裁 阿 米 特 : 六 格 哈 尔 说 。 未 来 ， 你 问 谷歌 一 个 问题 ， 它 会 直接 提 
供 答案 ， 而 不 只 是 给 你 相关 的 链接 。 然 而 ， 搜 索 还 远 达 不 到 我 们 期 行 
的 发 展 水 平 。 现 有 的 搜索 撤 术 无 法 处 理 “ 带 有 防虫 喷 筋 的 蚊帐 是 不 是 比 
不 带 防 虫 喷 筋 的 蚊帐 更 有 效 ” 这 样 的 问题 。 如 采 从 未 有 人 问 过 一 模 一 样 
的 问题 ， 那 么 融 得 不 到 理想 的 答案 。 因 为 这 类 问题 的 答案 不 仅 要 求 纺 
写 这 些 信 息 ， 而 且 需 要 现实 世界 的 “实体 知识 ”， 以 及 它们 的 相互 关联 
性 。 谷歌 搜索 的 未 来 是 从 数据 到 信息 ， 到 知识 ， 再 到 智慧 的 发 展 过 
程 ， 让 搜索 引擎 变 得 更 加 聪明 。 


(三 ) 搜索 引擎 的 工作 原理 


“搜索 ”是 一 项 奇妙 的 革命 性 技术 ， 它 不 仅 能 帮助 人 们 实现 梦想 ， 
而 且 能 调整 人 类 的 知识 结构 。( 电 搜索 引擎 所 做 的 事 远 不 止 为 我 们 找到 
言 息 ， 我 们 在 搜索 的 同时 会 发 现 许多 从 未 见识 过 的 东西 。( 人 四 随 着 互联 
网 的 迅猛 发 展 ， 搜 索引 擎 已 成 为 必 不 可 少 的 工具 。 搜 索引 擎 是 指 根据 
一 定 的 策略 ， 运 用 特定 的 计算 机 程序 搜集 互联 网 上 的 信息 ， 在 对 信息 
进行 组 织 和 处 理 后 ， 将 处 理 后 的 信息 显示 给 用 户 ， 为 用 户 提供 检索 服 
务 的 系统 。( 电 搜索 引擎 的 主要 工作 原理 有 3 个 环节 (如 图 3-1 所 示 ) 。 
首先 ， 每 个 独立 的 搜索 引擎 都 有 自己 的 网 页 抓 取 程序 (以 下 简称 
Spider) 。Spider 顺 着 网 页 中 的 超 链接 连续 抓 取 网 页 。 由 于 互联 网 中 超 
链接 的 应 用 很 普遍 ， 理 论 上 ， 从 一 定 范围 的 网 页 出 发 ， 就 能 搜集 到 绝 


大 多 数 的 网 页 。 其 次 ， 搜 索引 擎 抓 取 到 网 页 后 ， 还 要 做 大 量 的 预 处 理 
工作 ， 才 能 提供 检索 服务 。 其 中 ， 最 重要 的 束 是 捉 取 关键 词 ， 建 立 索 
引文 件 。 最 后 ， 用 户 输入 关键 词 进 行 检索 ， 搜 索引 擎 从 索引 数据 库 中 
找到 匹配 该 关键 词 的 网 页 。 
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图 3-1 搜索 引擎 工作 原理 示意 图 


网 页 抓 取 。 我 们 得 到 搜索 结果 的 过 程 始 于 Spider 。 这 是 一 种 在 互 
联网 上 从 一 个 链接 跳 到 另 一 个 链接 ， 把 它 找 到 的 网 页 打包 ， 并 把 网 页 
送 回 服务 器 中 以 备 索引 处 理 的 专用 软件 。 通 过 Spider 可 以 在 互联 网 中 
搜集 指定 的 网 页 ， 并 放 入 数据 库 ， 网 页 的 搜集 工作 是 在 用 户 提交 查询 
之 前 就 已 经 预先 完成 的 。Spider 访 问 网 页 的 过 程 类 似 普 通用 户 使 用 浏 
贤 器 访问 其 页 面 ， 即 B/S (浏览 器 /服务 器 ) 模式 。Spider 先 回 页 面 提出 
访问 请 求 ， 服 务 器 接受 其 访问 请 求 并 返回 HTML( 沁 代码 后 ， 把 获取 的 
HTML 代 码 存 入 原始 页 面 数据 库 。 搜 索引 警 使 用 多 个 Spider 分 布 聆 行 以 
加 快 息 行 速度 。 搜 索引 警 的 服务 器 遍布 世界 各 地 ， 每 台 服务 器 都 会 派 
出 多 个 Spider 同时 抓 取 网 页 。 那 么 ， 如 何 做 到 一 个 页 面 只 访问 一 次 ， 
从 而 提高 搜索 引擎 的 工作 效率 呢 ? 


在 抓 取 网 页 时 ， 搜 索引 擎 会 建立 两 张 不 同 的 表 ， 一 张 表 记录 已 经 
访问 过 的 网 站 ， 另 一 张 表 记录 没有 访问 过 的 网 站 。 当 Spider 抓 取 某 个 


外 部 链接 页 面 URL 全 的 时 候 ， 需 把 该 网 站 的 URL 下 载 回来 分 析 。 在 
Spider 全 部 分 析 完 这 个 URL 后 ， 将 这 个 URL 存 入 相应 的 表 中 ， 这 时 当 
别 的 Spider 从 其 他 网 站 或 页 面 又 发 现 这 个 URL 时 ， 它 会 对 比 看 看 已 访 
问 列表 中 有 没有 ， 如 果 有 ，Spider 会 自动 丢弃 该 URL， 不 再 访问 。 
Spider 还 要 注意 网 页 上 能 找到 的 每 一 个 链接 ， 并 把 它们 排列 到 请 求 文 
档 中 ， 然 后 发 送 更 多 的 请 求 给 这 些 新 发 现 的 链接 ， 再 通过 这 些 链 接 找 
到 更 多 的 链接 。 这 个 过 程 周而复始 。Spider 是 利用 HTMI 文 档 之 间 的 链 
接 关系 进行 网 页 抓 取 的 。 以 一 个 或 若干 个 URL 为 入 口 地 址 ， 对 网 页 中 
的 超 链 接 进行 抓 取 ， 并 将 网 页 中 的 所 有 链接 加 入 待 访问 的 URL 列 表 
中 ， 随 后 对 已 经 抓 取 下 来 的 网 页 进行 内 容 提取 、 关 键 字 处 理 等 工作 。 


信息 检索 。 为 了 便于 用 户 在 数 万 亿 级 别 以 上 的 原始 网 页 数据 库 
中 快速 便捷 地 找到 搜索 结 末 ， 搜 索引 擎 必须 对 Spider 抓 取 的 原始 网 页 
做 预 处 理 。 网 页 预 处 理 的 主要 过 程 是 先 为 网 页 建立 全 文案 引 ， 之 后 分 
析 网 页 ， 最 后 建立 倒 排 文 件 运行 匹配 。 网 页 分 析 有 以 下 步 又 : 判断 网 
页 类 型 ， 衡 量 其 重要 程度 、 丰 是 程度 ， 对 超 链 接 进 行 分 析 、 分 词 ， 把 
重复 网 页 去 掉 。 


经 过 搜索 引擎 分 析 处 理 后 ， 网 页 已 经 不 再 是 原始 的 网 页 页 面 ， 而 
是 浓 缩 成 能 反映 页 面 主题 内 容 、 以 词 为 单位 的 文档 。 数 据 索引 中 结构 
最 复杂 的 是 建立 索引 库 ， 索 引 又 分 为 文档 。 每 个 网 页 唯一 的 文档 号 是 
由 文档 索引 分 配 的 ， 每 个 单词 出 现 的 次 数 、 位 置 、 大 小 格式 都 可 以 根 
据 词 的 序列 号 在 网 页 中 检索 出 来 ， 最 终 形成 文档 号 的 数据 列表 。 倒 排 
索引 的 形成 过 程 是 这 样 的 ， 搜 索引 擎 用 分 词 系 统 将 文档 目 动 切 分 成 单 
词 序 列 ， 赋 予 每 个 单词 唯一 的 单词 编号 ， 记 录 包 含 这 个 单词 的 文档 。 
倒 排 索 引 是 最 简单 的 ， 实 用 的 倒 排 索 引 还 需 记 载 更 多 的 信息 。 在 单词 
对 应 的 倒 排 列表 中 ， 除 了 记录 文档 编号 外 ， 单 词 频率 信息 也 被 记录 进 
去 ， 便 于 以 后 计算 查询 和 文档 的 相似 度 。 


查询 服务 。 在 搜索 引 警 界面 输入 关键 词 ， 点 击 “ 搜 索 ” 按 钮 之 后 ， 

搜索 引擎 程序 首先 对 搜索 词 进行 以 下 处 理 : 分 词 处 理 ， 根 据 情 况 判断 
整合 搜索 是 否 需要 局 动 ， 找 出 错别字 和 拼写 中 出 现 的 错误 ， 把 停止 词 
去 掉 。 其 次 ， 搜 索引 获 程 序 便 把 包含 搜索 词 的 相关 网 页 从 索引 数据 库 
中 找 出 ， 并 且 对 网 页 进行 排序 ， 按 照 一 定 的 格式 返回 到 “搜索 "页面 。 
查询 服务 最 核心 的 部 分 是 搜索 结 采 排序 ， 其 决定 了 搜索 引擎 的 质量 好 
坏 及 用 户 满 意 度 。 影 响 实际 搜索 结果 排序 的 因素 很 多 ， 最 主要 的 因素 
之 一 征 网 页 内 容 的 相关 度 。 


影响 关键 词 相关 性 的 主要 因素 包括 如 下 5 个 方面 。 一 古 关 键 词 第 用 
程度 。 经 过 分 词 后 的 多 个 关键 词 ， 对 整个 搜索 字符 串 的 意义 页 献 并 不 
相同 。 二 是 词 频 及 密度 。 通 常情 况 下 ， 搜 索 词 的 密度 和 其 在 页 面 中 出 
现 的 次 数 成 正 相 天 ， 次 数 越 多 ， 说 明 密 度 越 大 ， 页 面 与 搜索 词 关 系 越 
密切 。 三 是 关键 词 位 置 及 形式 。 关 键 词 出 现在 越 重要 的 位 置 ， 如 标题 
标签 、 黑 体 等 ， 说 明 页 面 与 关键 词 越 相 关 ， 在 索引 库 的 建立 中 提 到 
的 ， 页 面 关 键 词 出 现 的 格式 和 位 置 都 被 记录 在 罕 引 库 中 。 四 十 关键 词 
距离 。 关 键 词 被 切 分 之 后 ， 如 果 匹 配 地 出 现 ， 整 说明 其 与 搜索 词 相关 
程度 较 强 。 比 如 ,“ 搜 索引 警 ”* 在 页 面 上 连续 完整 地 出 现 或 者 “ 搜 
索 ” 和 “3 引 警 ”出 现 的 时 候 距 离 比较 近 ， 痢 被 认 为 其 与 搜索 词 “搜索 引 
擎 ”相关 。 五 是 链接 分 析 及 页 面 权重 。 页 面 之 间 的 链接 和 权重 关系 也 影 
虽 关 键 词 的 相关 性 ， 其 中 最 重要 的 是 销 文 字 ， 页 面 有 越 多 以 搜索 词 为 
销 文 字 的 导入 链接， 说 明 页 面 的 相关 性 越 强 。 
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11. HTML， 即 超级 文本 标记 语言 ， 超 级 文本 就 是 指 页 面 内 可 以 包 仿 图片、 链接， 其 

音乐 、 程 序 等 非 文字 元 素 。 
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第 三 节 
搜索 引擎 到 人 工 智 能 的 终极 演进 


(一 ) 全 局 化 范围 搜索 


数据 搜索 是 激活 数据 学 中 的 准备 阶段 ， 是 块 数 据 系 统 依据 某 种 信 
号 组 织 相关 数据 的 一 种 行为 。 人 过 数据 搜索 延续 了 传统 搜索 引 警 的 原理 
和 各 种 技术 ， 但 征 搜 索 范 围 更 全 面 ， 强 调 的 是 对 所 有 关联 数据 的 搜 
索 ， 描 述 的 是 从 海量 数据 中 通过 搜索 实现 关联 数据 聚集 的 过 程 。 此 过 
程 实现 了 从 孤立 数据 到 全 局 数据 汇聚 ， 为 接 下 来 激活 数据 学 所 强调 的 
数据 处 理 环节 提供 尽 可 能 完整 的 数据 质 源 基础 ， 以 确保 处 理 结 采 的 准 
确 性 ， 防 止 出 现 数据 价值 分 析 挖 掘 的 盲点 。 


关联 数据 体系 。 关 联 数据 ， 即 由 身份 和 行为 数据 聚合 而 产生 的 
数据 ， 反 映 和 发 现 人 与 事 、 事 与 物 之 间 的 关联 关系 。( 岂 整个 关联 数据 
体系 中 包括 强 关 联 、 关 联 、 弱 关联 及 洪 在 关联 的 数据 ， 甚 至 还 包含 当 
前 并 不 关联 ， 但 在 未 来 可 能 会 发 生 关 联 的 数据 。 当 然 ， 关 联 数据 体系 
中 的 数据 并 不 是 一 成 不 变 的 ， 新 的 数据 会 不 断 加 入 ， 过 时 的 数据 需要 
修改 或 删除 ， 数 据 之 间 的 链接 也 应 随 之 变化 。 数 据 激活 需要 通过 数据 
搜索 实现 整个 天 联 数 据 体系 的 建立 ， 搜 索 的 结果 包括 所 有 关联 数据 体 
系 中 的 数据 。 因 此 ， 激 活 数 据 学 所 指 的 数据 搜索 结 采 更 加 全 面 。 


目前 的 搜索 引擎 大 多 采用 的 是 语法 层级 搜索 ， 搜 索 匹 配 大 多 十 机 
械 性 的 检索 ， 这 种 搜索 不 仅 需 要 提供 用 户 需 要 的 准确 、 有 用 的 数据 ， 
而 且 和 常常 需要 多 条 类 似 的 数据 。 因 此 ， 传 统 的 搜索 引擎 越 发 难以 满足 
人 工 智能 时 代 的 数据 搜索 需求 。 激 活 数 据 学 中 的 数据 搜索 利用 搜索 关 


联 抹 略 搜 集 整 理 数据 ， 基 于 关联 数据 体系 进行 搜索 ， 这 种 搜索 强化 了 
针对 某 一 关联 数据 的 相关 收 和 及 更 新 ， 减 少 了 搜索 中 涉及 的 大 量 无 用 
数据 ， 碍 询 搜索 的 效率 极 高 ， 能 够 快速 整理 出 分 类 细致 、 准 确 、 全 
面 、 具 备 时 效 性 的 搜索 列表 。 这 样 束 改 善 优化 了 相似 的 其 他 检索 工具 
在 数据 搜索 上 的 功能 ， 具 有 先进 的 优势 ， 其 搜索 操作 具有 一 定 的 智能 
性 ， 运 行 得 出 的 数据 结果 不 管 是 查 准 率 还 是 履 凑 面 都 非常 出 色 。 


从 数据 到 数 聚 。 传 统 搜索 方式 的 混杂 、 无 序 、 模 糊 等 特点 ， 导 
致 搜索 结果 的 数据 质量 堪忧 。 一 旦 搜索 到 的 数据 质量 不 高 ， 束 很 容易 
导致 错误 的 场景 重 现 和 错误 的 映像 ， 出 现 错误 的 连接 以 致 形成 错误 的 
决策 。 仅 仅 体 量 大 ， 而 不 能 使 数据 之 间 打 破 体 系 ， 互 相 流动 验证 ， 和 是 
不 够 的 。 孤 立 数据 的 价值 远 远 小 于 全 局 的 、 广 泛 连 接 的 数据 价值 。 分 
散 的 数据 孤岛 ， 体 系 与 体系 间 、 了 映像 与 映像 间 都 没有 关联 。 这 需要 打 
破 体系 间 的 界限 ， 让 数据 产生 关联 ， 从 而 导 问 更 深度 的 洞察 。 全 局 数 
据 生 在 大 数据 基础 上 的 升级 和 目 我 进化 。 从 理论 上 来 说 ， 大 量 数据 的 
集成 可 以 映 冉 出 客观 世界 的 部 分 ， 形 成 一 个 个 数据 体系 。 体 系 中 包含 
Be 这 是 不 同体 系 根据 不 同 需求 对 客观 世界 的 数据 化 抽象 和 
沉积 。 


激活 数据 学 中 的 数据 搜索 ， 实 现 了 在 关联 数据 体系 的 基础 上 从 柬 
立 的 “数据 ?到 全 局 数据 的 “汇聚 ?过程 。 在 块 数据 中 ， 流 动 数据 占 全 样 
本 数据 的 比例 越 大 ， 从 数据 到 数 聚 的 过 程 殉 越 有 可 能 建立 连接 并 发 现 
价值 。( 固 同样， 激活 数据 学 中 的 数据 搜索 通过 数据 的 流动 找到 关联 数 
据 。 首 和 完 ， 数 据 搜索 会 对 进入 的 源 数据 进行 识别 ， 初 步 确 定数 据 的 可 
用 性 ， 其 次 ， 数 据 搜索 会 确定 关联 数据 集成 转换 的 规则 ;最 后 ， 数 据 
搜索 可 进行 天 联 数据 的 质量 评价 。 此 外 ， 搜 索 会 受到 经 验 关 联 的 影 
啊 ， 经 难关 联 可 以 理解 为 既往 的 数据 流动 路 径 。 这 个 路 径 可 以 是 系统 
预先 设 定 的 ， 也 可 以 征 数 据 流 动 过 程 中 目 发 形成 的 。 


精准 匹配 。 信 息 的 海量 供给 与 人 们 的 个 性 化 信息 需求 之 间 的 匹 
配 始 终 是 一 大 难题 。 过 去 ， 搜 索引 擎 作为 一 种 初级 形态 ， 需 要 人 提供 
关键 词 ， 然 后 搜索 引擎 从 数 百 亿 个 网 页 中 找 出 相关 的 搜索 结 末 示 人 人 。 
基于 激活 数据 学 的 数据 搜索 不 是 漫 无 目的 地 追求 大 而 全 的 数据 (因为 
大 数据 追求 的 *N= 所 有 ”的 全 样本 是 无 法 实现 的 ， 同 时 大 数据 样本 非但 
不 能 解决 样本 偏差 问题 ， 反 而 引发 了 大 量 的 小 数据 问题 ) ， 其 所 搜索 
到 的 数据 更 加 重视 筛选 过 的 有 价值 的 数据 。 本 质 上 ， 激 活 数 据 学 中 的 
数据 搜索 是 对 人 力 最 大 化 的 若 代 ， 更 高 效 地 帮助 查询 者 将 “人 脑 乔 
能 ”匹配 a 到 合适 的 信息 。 在 这 个 意义 上 ， 基 于 激活 数据 学 的 数据 搜索 是 
人 类 命令 的 “执行 者 ”， 以 高 速 的 数据 挖 气 、 分 析 能 力 辅佐 人 类 完成 理 
性 决策 。 


激活 数据 学 中 的 数据 搜索 使 人 工 智能 不 断 修 正 对 人 们 真实 需求 的 
判断 ， 从 而 提升 搜索 的 精准 程度 。 按 照 人 工 智 能 的 机 融 学 习 理 论 ， 通 
过 大 量 的 输入 输出 训练 ， 让 智能 机 右 发 现 规律 ， 掌 握 每 个 行动 的 结 
果 ， 然 后 根据 这 些 行动 结果 的 排列 组 合 ， 不 断 完善 内 部 算法 和 数学 模 
型 ， 建 立 内 部 反馈 机 制 。 当 智能 机 需 接 收 到 输入 数据 时 ， 可 以 研判 这 
个 输入 数据 在 当前 条 件 下 可 能 出 现 的 结 采 和 每 个 结 琳 的 优 务 ， 然 后 根 
据 智 能 机 器 内 在 的 目的 性 追求 ， 做 出 最 适合 的 选择 和 决策 。 因 此 ， 从 
激活 数据 学 理论 看 ， 更 全 面 、 更 优质 的 关联 数据 不 仅 可 以 帮助 人 类 更 
好 地 发 挥 主观 能 动 性 ， 制 定 更 加 精准 、 富 有 智慧 的 决策 ， 控 掘 数据 彰 
后 的 规律 ， 而 且 可 以 张 动 智能 机 需 的 目 身 进化 和 升级 。 


(二 ) 智能 化 目标 识别 


传统 的 数据 搜索 是 被 动 的 ， 往 往 需求 在 前 、 搜 索 在 后 ， 这 种 搜索 
方式 已 无 法 满足 万 物 互 联 时 代 从 海量 信息 中 快速 搜索 到 用 户 所 需 数 
据 。 基 于 激活 数据 学 的 数据 搜索 结合 新 一 代 人 工 智能 技术 ， 摆 脱 了 传 


统 搜索 引擎 的 局 限 性 ， 更 加 智能 化 ， 更 具 主 动 性 ， 提 供 多 元 化 的 搜索 
方式 ， 为 用 户 提 供 个 性 化 定制 服务 ， 更 好 地 满足 用 户 的 个 性 需求 。 激 
活 数 据 学 中 的 数据 搜索 是 目 发 性 的 ， 智 能 程度 达到 了 “ 走 一 步 ， 想 十 
步 ”， 会 在 分 析 前 期 关联 的 基础 上 ， 预 见 性 地 进行 目 主 搜索 ， 为 更 为 精 
准 的 预 判 搜集 全 面 的 数据 资产。 


主动 关联 。 激 活 数据 学 强调 ， 通 过 海量 数据 的 相互 碰撞 ， 激 发 
价值 ， 以 远 超 人 脑 运 转速 度 的 服务 器 时 速 ， 目 动 在 信息 之 间 、 数 据 之 
间 建 构 关 联 ， 市 来 人 类 脑力 尚 难 企及 的 理性 分 析 结 有 末 ， 近 供 预测 、 预 
警 ， 帮 助人 类 在 生产 生活 中 做 出 更 明智 的 决策 ， 开 局 人 工 知 能 新 时 
代 。 搜 索引 擎 的 本 质 是 垦 接 人 脑 智能 和 单 类 信息 的 桥 染 工具 ， 故 而 必 
然 依赖 人 类 手动 的 输入 ， 必 然 受 限于 人 脑 的 思维 。 人 类 对 大 数据 智能 
的 需求 、 退 求 ， 远 非 传统 搜索 引 敬 可 以 满足 。 比 如 在 市 假日 ， 我 们 想 
知道 计划 前 往 的 景区 古 否 人 满 为 患 ， 搜 索引 擎 可 以 间接 帮助 我 们 ， 前 
提 古 需要 有 人 事先 发 布 过 景区 的 图 片 、 文 字 。 我 们 得 到 的 信息 往往 因 
请 后 而 失真 ， 如 果 没 有 他 人 的 分 享 ， 我 们 便 无 法 实现 经 验 的 获取 。 


数据 搜索 需要 面 对 的 是 网 络 中 浩如烟海 的 数据 ， 每 天 还 有 无 数 信 
恩 在 不 断 注 入 。 基 于 油 活 数据 学 的 数据 搜索 可 以 将 多 个 搜索 的 数据 进 
行 整 合 ， 作 为 一 个 整体 存放 到 关联 数据 体系 的 数据 库 中 ， 并 进行 融合 
和 上 自我 深度 学 习 。 机 器 对 数据 的 认识 越 来 越 全 面 ， 数 据 的 已 知 特征 维 
上 度 越 来 越 丰 富 ， 有 助 于 更 快 、 更 精准 地 搜索 到 目标 主体 。 例 如 ， 在 节 
假日 ， 基 于 油 活 数据 学 的 数据 搜索 可 以 通过 关联 数据 体系 中 的 数据 辜 
接 ， 整 合 景 区 周边 交通 运行 情况 、 和 车 位 使 用 情况 、 天 气 情 况 、T 门 票 出 
售 情况 等 相互 分 散 的 数据 ， 给 予 我 们 一 个 直接 、 明 确 、 即 时 的 答复 。 
激活 数据 学 的 数据 搜索 能 解析 多 种 复杂 搜索 请 求 ， 准 确 判 断 用 户 真正 
的 需求 ， 提 升 智能 设备 等 多 端的 搜索 能 力 ， 对 移动 场景 进行 有 机 到 
合 ， 并 结构 化 地 呈现 精准 的 信息 内 容 。 


自发 搜索 。 机 器 学 习 与 人 类 学 习 的 最 大 差别 在 于 ， 前 者 需要 大 
量 数 据 作 为 " 助 推荐 >”。 数 据 的 输入 源 目 机 顺 对 数据 的 主动 搜索 ， 在 数 
据 量 不 足以 应 对 新 的 任务 时 ， 机 器 学 习 该 如 何 应 对 呢 ? 这 束 离 不 开机 
如 的 主动 搜索 。 基 于 激活 数据 学 的 数据 搜索 能 够 更 多 地 发 挥 主动 搜索 
数据 的 作用 ， 目 发 提高 其 对 关联 数据 挖掘 、 推 理 和 联想 的 精度 ， 实 现 
准确 理解 用 尸 的 属性 、 状 态 、 兴 趣 、 和 情感 状态 等 信息 。 根 据 目 然 语言 
处 理 能 力 ， 解 析 多 种 复杂 搜索 请 求 ， 准 确 判断 用 户 真正 的 需求 ， 提 升 
理解 的 准确 度 和 效率 。 根 据 结果 不 断 更 新 关联 数据 体系 ， 运 用 大 数据 
进行 挖掘 、 抽 取 、 清 沈 、 融 合 、 关 联 、 推 理 ， 从 信息 碎片 中 深度 控 拥 
数据 关联 ， 将 无 序数 据 转 化 为 高 效 关 联 数据 ， 为 机 器 提 供 更 准确 、 符 
合 需求 的 关联 数据 。 


基于 激活 数据 学 的 数据 搜索 引擎 硅 现 出 智能 化 、 个 性 化 、 场 景 化 
和 交互 便捷 化 的 发 展 趋 势 。 一 是 搜索 请 求 的 理解 方式 ， 从 传统 的 文字 
识别 向 图 像 识 别 、 许 频 识别 、 视 频 识 别 等 多 模仿 目 然 语言 处 理 转 变 。 
二 是 主流 搜索 终端 设备 ， 从 电脑 端 向 移动 终端 (手机 、 平 板 电 脑 、 可 
穿戴 设备 等 ) 泛 化 。 三 是 搜索 方式 ， 由 传统 的 网 页 输入 向 基于 位 置 的 
场景 化 目 动感 知 拓展 ， 使 搜索 服务 无 处 不 在 ， 搜 索引 擎 成 为 不 可 或 缺 
的 用 户 助手 。 四 有 是 搜索 结果 的 至 现 扩 术 ， 从 传统 的 网 页 排名 技术 回 智 
能 化 感知 用 户 需 求 的 用 户 导 回 技 术 过 渡 ， 能 够 个 性 化 、 智 能 化 、 高 效 
化 地 展示 信息 流 。 激 活 数 据 学 的 数据 搜索 能 构建 内 容 生态 服务 体系 ， 
从 传统 的 <* 即 搜 即 得 、 即 搜 即 用 ”到 现在 的 智能 化 感知 用 户 需求 的 “不 搜 
即 得 ”和 个 性 化 的 数据 流 。 


智能 识别 。 人 们 每 天 都 在 使 用 搜索 引擎 ， 得 到 的 结果 也 与 人 工 
智能 机 天 学 习 的 能 力 相 关 。 搜 索 的 演进 同样 促进 着 人 工 智 能 的 发 展 。 
从 标题 搜索 到 分 词 搜索 ， 再 到 如 今 的 知识 图 谱 ， 搜 索 一 直 在 试图 从 海 
量 信息 中 筛选 出 最 符合 人 们 需求 、 最 有 价值 的 那 部 分 信息 。 人 们 为 机 
右 建 立 了 能 模拟 人 脑 进行 分 析 、 学 习 的 神经 网 络 ， 以 模仿 人 脑 的 机 制 
来 解释 图 像 、 声 首 和 文本 等 数据 。 人 工 知 能 的 深度 学 习 能 力促 使 其 不 


断 修正 对 人 们 真实 需求 的 判断 ， 从 而 提升 搜索 的 精准 程度 。( 央 在 人 工 
EB 时 代 ， 基 于 激活 数据 学 理论 ， 乔 能 机 妖 的 语 首 识别 、 图 像 识 别 等 
BE 力 得 到 迅速 提升 ， 综合 了 语 首 、 图 像 、 目 然 语 言 处 理 等 多 种 技 
与 人 进行 多 轮 智 能 交流 ， 能 针对 移动 场景 对 搜索 数据 进行 有 机 


以 人 脸 识 别 为 例 : 每 个 人 的 相 够 ， 用 程序 去 描述 非常 困难 ， 而 采 
用 深度 学 习 的 方法 ， 在 建立 数学 模型 后 ， 只 要 把 人 脸 照片 放 进去 ， 千 
诉 智能 机 器 这 张 照 片 对 应 的 名 字 是 什么 ， 在 大 量 数据 的 基础 上 ， 它 整 
能 目 动 提取 特征 ， 把 复杂 的 物理 图 片 抽象 成 机 器 六 能 能 慌 的 特征 。 再 
如 ， 在 图 像 识别 方面 ， 对 人 们 用 手机 随便 拍摄 的 普通 照片 ， 人 工 智 能 
不 仅 能 说 出 照片 中 的 颜色 ， 而 且 能 以 “多 轮 交 互 ?的 方式 像 人 一 样 基 于 
之 前 的 语 境 接受 退 问 ， 进 而 快速 识别 照片 是 在 哪里 拍摄 的 。 基 于 深度 
学 习 系 统 ， 知 能 机 器 学 习 了 海量 的 这 有 地 理 位 置 标签 的 照片 ， 可 以 基 
于 记忆 库 进行 位 置 识 别 。 未 来 ， 在 人 工 状 能 有 时代， 运用 激活 数据 学 理 
论 与 搜索 技术 的 结合 ， 智 能 机 器 的 识别 能 力 一 定 会 比 人 类 好 ， 人 让 机 
堪 更 聪明 ， 机 顺 使 人 更 高 效 。 


(三 ) 无 界 化 协同 感知 


人 类 不 仅仅 有 理性 ， 还 有 感性 ， 人 类 获取 自由 的 关键 ， 束 是 对 感 
性 的 控制 能 力 。 达 无 疑问 ， 稼 能 机 右 具 有 理性 分 析 能 力 ， 在 分 析 数 
据 、 构 建 规则 方面 的 能 力 是 很 强 的 ， 但 是 在 感性 方面 ， 智 能 机 天 还 存 
在 一 定 难 度 ， 大 部 分 机 需 学 习 系 统 仍 然 容易 被 复杂 的 场景 或 物体 迷 
惑 。( 汪 基于 激活 数据 学 理论 ， 智 能 机 器 能 主动 感知 人 体 状态 或 环境 信 
思 ， 并 积 素 一 些 感情 触发 动作 或 理性 行为 的 逻辑 ， 从 而 获得 对 人 体 行 
为 和 环境 的 准确 预测 与 研判 。 此 过 程 中 ， 数 据 搜 索 真正 实现 了 人 机 交 
互 从 有 限 到 无 界 的 转变 。 


人 机 智能 融合 。 简 单 地 说 ， 人 机 智能 融合 就 是 充分 利用 人 和 机 
器 的 优势 形成 一 种 新 的 智能 形式 ，( 固 是 人 、 机 、 环 境 系 统 相互 作用 而 
产生 的 新 型 人 机 融合 智能 系统 。 一 般 而 言 ， 任 何 智 能 都 是 从 数据 输入 
开始 的 ， 对 人 而 言 数据 就 是 各 种 刺激 ( 眼 、 耳 、 自 、 舌 、 身 ) ， 对 机 
妖 而 言 束 十 各 种 传 感 右 采集 到 的 各 种 数据 。 数 据 是 相对 客观 的 ， 而 从 
中 提炼 出 有 价值 的 数据 一 一 信息 却 是 相对 主观 的 ， 信 息 已 经 开始 市 有 
人 的 价值 观 、 偶 好 倾 问 和 风俗 习惯 。 随 着 万 物 互联 时 代 的 语音 、 语 言 
交互 ， 人 类 的 智慧 得 以 在 后 台 进 行 磁 撞 、 比 对 ， 相 互 司 发 、 获 得 灵 
感 ， 届 时 我 们 的 群体 智能 会 上 一 个 巨大 的 台阶。 要 想 使 计算 机 走 进 人 
的 世界 ， 束 必须 赋予 计算 机 和 人 一样 的 心理 认 知 能 力 ， 能 够 根据 人 的 行 
为 举止 对 其 心理 状态 进行 合理 推断 ， 理 解 人 的 行为 和 意图 ， 从 而 保证 
高 效 、 目 然 、 和 谐 的 人 机 交互 。 


影 《 黑 客 帝国 》 和 《 阿 凡 达 》 中 用 意识 来 控制 虚拟 世界 的 “化 
身 ”， 俄 罗斯 “2045 未 来 世界 大 会 "上 未 来 学 家 预测 科学 家 将 于 2020 年 通 
过 脑 机 接口 实现 用 意识 控制 机 器 人 。*“ 脑 机 接口 "技术 是 一 种 研究 如 何 
用 神经 信号 与 外 部 机 械 直 接 交 互 的 技术 ， 采 集 大 脑 皮质 神经 系统 活动 
产生 的 脑 电信 号 ， 经 过 放大 、 滤 波 等 方法 ， 将 其 转化 为 可 以 被 计算 机 
识别 的 信号 ， 从 中 辨别 人 的 真实 章 图。 人 轩 激活 数据 学 理论 中 ， 结 合 
工 智能 技术 ， 通 过 神经 成 像 获取 的 人 脑 结构 和 功能 成 像 数据 ， 机 器 将 
会 对 人 的 思维 意识 进行 实时 准确 识别 ， 并 对 搜索 到 的 人 体 信 息 进行 深 
度 学 习 与 特征 分 析 ， 揭 示人 类 视觉 、 语 音 处 理 、 图 像 识 别 、 语 言 交流 
等 其 他 技术 难以 发 现 的 规律 和 现象 。 比 如 ， 通 过 脑 机 接口 能 使 有 运动 
残障 及 情态 、 行 为 和 思维 障碍 的 人 得 到 治疗 。 脑 机 接口 是 连接 人 脑 与 
现实 世界 的 桥梁 之 一 ， 一 方面 有 助 于 电脑 更 加 了 解 人 脑 活动 特征 ， 以 
指导 电脑 更 好 地 模仿 人 脑 ， 另 一 方面 可 以 让 电脑 更 好 地 与 人 协同 工 
作 。 


人 机 交互 多 模 态 感知 。 随 着 人 工 智 能 的 发 展 ， 人 机 交互 的 未 来 
必然 站 人 体 各 种 感官 的 智能 延伸 工具 与 人 体感 官 深度 结合 ， 智 能 硬件 


利用 视觉 、 昕 觉 、 触 觉 、 嘿 觉 等 感知 的 数据 或 信息 将 最 终 实 现 人 工 冤 
能 的 感应 层 形 态 ， 构 建成 人 机 多 模仿 交互 方式 。 多 模仿 融合 了 视觉 、 
听觉 、 触 觉 、 嗅 觉 等 交互 方式 ， 其 表达 效率 和 表达 的 信息 完整 度 要 优 
于 传统 单一 的 交互 模式 。( 里 然而， 传统 的 人 机 交互 模式 中 ， 大 多 是 音 
一 单 同 的 交互 方式 ， 尤 其 是 多 轮 人 机 对 话 ， 涉 及 语音 理解、 语义 分 
析 、 情 感 分 析 、 动 作 捕 提 等 多 个 维度 。 例 如 ， 网 上 大 多 数 图 片 、 首 频 
和 视频 十 通过 元 数据 搜索 到 的 ， 即 通过 手动 搜索 关键 词 进行 查找 。 因 
此 ， 有 必要 开发 能 够 像 人 一 样 目 动 识别 图 片 、 首 频 和 视频 的 传 感 系 
统 ， 让 机 颖 能 够 理解 现实 世界 所 发 生 的 一 切 ， 并 延伸 至 人 类 的 感知 功 
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进入 人 工 稚 能 时 代 ， 人 机 间 无 界 交 互 能 力 为 机 融 感 知 增加 了 从 多 
维度 主动 获取 关联 数据 的 能 力 ， 如 同 所 有 动物 的 感知 系统 ， 脱 离 交 互 
的 感知 ， 其 获取 信息 的 能 力 是 非常 有 限 的 。 所 有 智能 的 产生 都 与 刺激 
和 数据 密切 相关 ， 所 谓 刺 激 ， 束 是 人 感知 到 的 外 部 的 映射 。 这 里 的 数 
据 生 机 器 接触 到 的 外 部 的 输入 ， 并 产生 相应 的 融合 、 理 解 ， 进 而 进行 
相应 的 反应 和 规划 。( 二 数据 搜索 为 机 器 自动 、 方 便 、 快 捷 获 取 关联 数 
据 芮 定 了 基础 ， 智 能 感知 的 结果 感觉 更 像 与 人 类 进行 交流 ， 不 仅 是 搜 
索 ， 而 且 可 能 市 来 深入 交流 ， 最 终 使 人 类 与 智能 机 絮 的 界限 不 断 模 
糊 、 融 合 ， 从 而 改变 人 类 ， 强 大 稼 能 机 絮 ， 两 者 共同 缔造 一 个 全 新 的 
社会 和 世界 。 


一 


三 元 空间 协同 感知 。 我 们 生活 在 一 个 信息 日 益 活 跃 的 人 、 机 、 
环境 (自然 、 社 会 ) 系统 中 ， 指 挥 控制 系统 自然 就 是 通过 人 、 机 、 环 
境 三 者 之 间 交 互 及 其 信息 的 输入 、 处 理 、 输 出 、 反 馈 来 调 世 正在 进行 
的 主题 活动 ， 进 而 减少 或 消除 结 采 不 确定 性 的 过 程 。 人 工 智能 时 代 ， 
世界 将 变 得 越 来 越 复 洒 ， 需 要 分 析 才 能 理解 其 复 洒 性 。 基 于 沿 活 数据 
学 理论 ， 在 人 、 机 、 环 境 系 统 相互 作用 而 产生 的 新 型 人 机 融合 智能 系 
统 中 ， 机 器 能 够 拥有 类 似 人 眼 和 人 和 耳 等 感官 的 功能 ， 使 得 机 如 和 人 类 
之 间 、 机 器 和 环境 之 间 的 沟通 能 够 像 人 和 人 及 人 和 环境 之 间 的 沟通 一 


样 目 然 。 作 为 人 类 体能 、 乔 能 和 感知 的 延 促 ， 机 器 不 再 局 限于 一 些 简 
单 的 流水 线 任务 或 完全 被 动 地 受 人 类 控制 ， 而 是 能 在 一 些 复 洒 、 非 结 
构 化 甚至 危险 的 环境 中 发 挥 主导 作用 。 


随 厦 人 工 知 能 的 快速 发 展 ， 在 人 工 六 能 的 愿景 中 ， 至 少 应 该 实 
现 “ 类 人 服务 、 超 人 感知 ”的 愿景 ， 即 以 类 人 的 方式 服务 人 类 自身 ， 以 
超人 的 方式 感知 外 部 世界 。 从 人 类 的 视角 看 ， 未 来 人 工 智能 理应 在 感 
官 和 思维 上 像 人 ;从 机 大 的 视角 看 ， 未 来 人 工 知 能 应 该 能 理解 人 的 行 
为 和 情绪 。 传 统 社会 是 一 个 二 元 空间 ， 人 类 社会 和 物理 空间 形成 互 训 
关系 。 在 类 人 社会 ， 人 、 机 、 物 三 者 相互 融合 ， 形 成 一 个 三 元 空间 。 
未 来 ， 人工 智 能 可 进行 人 、 机 、 物 信息 的 整合 ， 以 超越 人 类 的 精度 和 


时 空 尺 度 ， 感 知 三 元 空间 的 信息 关联 性 (如 图 3-2 所 示 ) 。 人 (党 ) 通 过 激 
活 数据 学 理论 中 的 数据 搜索 ， 能 让 机 器 在 三 元 空间 中 自主 搜索 、 智 能 
感知 自身 和 外 界 环境 信息 ， 为 机 器 做 出 更 加 精准 的 预 判 搜集 全 面 、 关 
联 的 数据 资源 。 


超人 感知 、 类 人 服务 


大 数据 + 超级 计算 机 计算 学 习 
图 3-2 未 来 人 工 智能 的 发 展 愿景 
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天 联 融 合 : 窜 能 稼 合 


在 智能 搜索 获得 的 数据 集中 ， 需 要 处 理 的 数据 可 能 来 目 不 同 数据 
域 、 不 同 数据 产 ， 同 时 还 具有 不 同 的 数据 形式 。 传 统 的 数据 关联 融合 
处 理 的 是 单一 数据 域 中 的 问题 ， 在 处 理 海量 、 多 源 、 异 构 数 据 上 还 多 
有 不 足 。%。 人 类 思维 本 质 上 是 信息 加 工 工程 。 人 脑 古 目 然 界 中 最 复 洲 、 
最 高 效 的 信息 处 理 系统 。 从 人 脑 整合 不 同感 官 之 间 的 信息 模式 出 发 ， 
激活 数据 学 提出 一 种 新 的 方法 体系 一 一 数据 跨 界 关联 融合 。 


关联 融合 是 这 一 新 方法 体系 中 承接 数据 智能 搜索 之 后 的 重要 环 
斑 ， 写 通过 对 搜索 出 来 的 模糊 结 采 数据 集 进行 降 维 去 品 、 关 联 识 别 、 
跨 界 重 构 ， 深 度 挖掘 数据 的 显 性 价值 与 隐 性 价值 ， 形 成 相对 精确 的 结 
果 数 据 集 。 如 果 说 搜索 获得 的 数据 是 茫 薄 大 海中 的 孤岛 ， 激 活 数 据 学 
中 的 关联 融合 要 做 的 就 是 借 力 新 思维 、 新 技术 的 不 断 创新 和 开发 ， 开 
以 海上 新 航道 ， 在 互 不 相连 的 岛屿 之 间 建 立新 的 联系 ， 实 现 彼此 的 互 
联 互通 ， 从 而 进行 价值 的 交换 或 者 重 构 。 探 寻 多 源 数 据 之 间 的 关联 天 
系 ， 运 用 路 界 思 维 将 同一 主体 的 数据 整理 融合 或 许 是 未 来 智能 数据 处 
理 的 新 思路 和 关键 环 节 


第 一 节 
人 脑 信息 的 处 理 与 融合 


大 脑 钙 人 和 其 他 智能 生命 系统 的 基本 絮 守 ， 对 多 源 信息 进行 整合 
并 形成 有 效 信息 是 其 具备 的 基本 功能 ， 人 类 可 以 目 发 地 将 映 体 感官 所 
感知 到 的 信息 结合 大 脑 的 记忆 单元 存储 的 相关 信息 进行 融合 处 理 ， 进 
而 形成 对 表象 世界 精确 的 描述 和 表达 。 现 实生 活 中 ， 数 不 清 的 人 类 行 
为 需要 大 脑 整合 和 短期 适时 存储 各 种 感觉 信息 才能 完成 ， 如 思考 数学 
题 、 视 谱 弹 蕉 、 在 键盘 上 打字 等 都 是 需要 人 脑 进 行 多 个 阶段 过 程 信 息 
的 感知 和 整合 才能 完成 的 行为 。 人 脑 对 信息 的 融合 过 程 与 “数据 汇集 和 
预 处 理 * 相 似 ， 在 这 个 过 程 中 提取 多 源 信息 的 有 用 信息 并 对 其 进行 融 
合 ， 主 要 分 为 对 象 感 知 、 情 景 关 联 和 信息 融合 三 个 阶段 。 


(一 ) 对 象 感知 


人 脑 内 部 古 一 个 极度 复 洒 的 系统 ， 按 照 维 度 可 以 分 为 物理 结构 分 
区 和 功能 结构 分 区 。 功 能 结构 分 区 由 三 个 基本 机 能 联合 区 构成 ， 这 二 
个 基本 机 能 联合 区 完成 了 人 脑 对 信息 进行 感知 、 关 联 及 融合 的 过 程 。 


人 脑 认 知 原理 。 人 脑 的 三 个 基本 机 能 联合 区 分 别 为 第 一 基本 机 
能 联合 区 、 第 二 基本 机 能 联合 区 、 第 三 基本 机 能 联合 区 。 每 个 机 能 联 
合 分 区 具有 三 级 皮质 区 : 一 级 皮质 区 是 外 围 冲 动 接收 区 ， 或 者 是 冲动 
从 这 里 出 发 去 外 围 ， 二 级 皮质 区 负责 对 信息 进行 加 工 ， 三 级 皮质 区 是 
大 脑 两 半球 最 后 发 展 的 器 官 ， 在 这 里 进行 许多 皮质 区 域 的 复杂 协同 活 
动 (如 图 4-1 所 示 ) 。 


人 脑 
第 二 基本 机 能 第 三 基本 机 能 
联合 区 联合 区 


信息 流 回 


图 4-1 人 脑 机 能 分 区 图 


第 一 基本 机 能 联合 区 包括 网 状 结构 、 间 脑 和 大 脑 皮 质 内 部 。 在 这 
一 机 能 联合 区 调节 紧张 和 觉醒 状态 触发 从 各 个 感官 通道 输入 的 开关 
控制 ， 对 接收 的 外 界 刺激 进行 度 质 调节 。 第 二 基本 机 能 联合 区 位 于 大 
脑 两 半球 后 半 部 分 ， 包 括 视 觉 区 、 上 听觉 区 和 一 般 感觉 区 及 相应 的 皮质 
下 组 织 。 在 这 一 机 能 联合 区 对 外 来 的 信息 进行 加 工 和 存储 ， 主 要 以 一 
级 皮质 区 为 基础 ， 在 二 级 皮质 区 处 理 信 息 加 工 和 编码 ， 在 三 级 皮质 区 
完成 高 级 抽象 和 经 验 保存 。 第 三 基本 机 能 联合 区 的 特点 与 第 二 基本 机 
能 联合 区 类 似 ， 只 是 神经 信息 在 层次 结构 上 的 传播 方向 相反 。 


情景 感知 。 人 脑 通 过 身体 感官 获取 外 界 信 息 ， 经 过 大 脑 内 部 的 
整合 处 理 最 后 形成 对 外 界 的 认 知 ， 这 一 阶段 形成 的 信息 存储 在 第 一 基 
本 机 能 联合 区 。 神 经 元 是 人 脑 感知 外 界 信息 最 主要 的 途径 ， 神 经 元 之 


间 的 联结 主要 由 突 触 实现 ， 突 触 古 神经 元 之 间 信 息 转 换 的 关键 结 构 。 
在 人 脑 获取 信息 信和 号 之 后 ， 由 树 突 和 胞 体 接收 输入 信号 ， 并 传送 相应 
的 信号 给 轴 突 ， 突 触 接触 信号 之 后 便 触 发 释放 出 化 学 递 质 ， 传 入 下 一 
个 神经 元 ， 以 这 样 的 方式 在 神经 元 之 间 完 成 信息 的 传递 。 


神经 元 通过 突 触 将 来 自 不 同 神经 元 的 信息 进行 汇聚 加 工 再 传递 ， 
从 而 进行 传导 、 调 入 和 控制 。 信 息 通 过 无 数 个 突 触 进行 传递 ， 在 传递 
过 程 中 也 不 免 接受 每 个 突 触 的 加 工 和 整合 ， 通 过 反复 不 断 的 处 理 ， 信 
思 的 内 容 也 随 之 不 断 丰 语 和 完善 。 通 过 神经 元 与 神经 元 或 非 神 经 元 以 
某 种 方式 互相 联结 成 的 复杂 神经 网 络 ， 形 成 具有 复杂 的 线性 和 非 线性 
的 反馈 联结 关系 ， 以 完成 对 真实 世界 的 表达 。 例 如 ， 味 觉 器 冒 获 取 事 
物 的 味道 ， 视 觉 郁 官 反映 事物 的 色彩 、 轮 廓 ， 和 触觉 套 官 反映 事物 的 状 
态 ， 等 等 ， 人 脑 在 获取 这 些 信息 之 后 对 其 进行 整合 处 理 ， 从 而 恢复 对 
客观 世界 的 真实 表达 。 


(二 ) 情景 关联 


在 “情景 关联 ”层次 ， 大 脑 对 多 通道 的 特征 进行 汇聚 ， 对 目标 对 象 
进行 绑 定 、 元 余 特 征 的 剔除 等 处 理 。 当 大 脑 获 取 的 信息 量 到 一 定 程 度 
的 时 候 ， 大 脑 中 心 会 从 数量 转向 质量 ， 对 系统 中 最 弱 的 连接 进行 定期 
清理， 同时 去 除 存 在 缺陷 的 神经 元 。 它 用 质量 来 交换 数量 ， 并 对 挑选 
出 来 的 有 效 信息 进行 一 定 的 关联 ， 在 无 须 扩 大 容量 的 情况 下 ， 使 我 们 
拥有 的 信息 更 有 价值 。 


主体 通过 主动 获取 客体 的 信息 并 对 其 信息 进行 加 工 ， 最 终 形成 对 
客体 的 客观 认识 。 因 此 ， 通 过 大 脑 对 信息 的 处 理 ， 原 来 互相 孤立 、 隔 
离 的 信息 建立 起 了 一 定 的 关联 关系 ， 甚 至 还 可 以 感知 到 如 时 间 和 空间 
等 无 法 为 感觉 所 感知 的 东西 ， 提 取 了 更 为 有 效 的 价值 信息 。 同 时 ， 人 
们 还 借助 抽象 的 思维 方式 ， 在 收集 整理 大 量 基础 性 资料 的 基础 上 ， 发 


现 事 物 发 展 的 本 质 、 内 部 联系 及 规律 性 等 。 通 过 对 信息 的 关联 分 析 ， 
透 过 现象 看 到 了 事物 的 本 质 ， 破 解 了 感官 获取 信息 的 局 限 性 ， 属 于 认 
识 过 程 的 质 的 飞跃 。 


在 对 信息 进行 情景 关联 处 理 时 ， 人 脑 将 获取 的 感官 信息 通过 第 一 
基本 机 能 联合 区 继续 传播 至 第 二 基本 机 能 联合 区 ， 第 二 基本 机 能 联合 
区 对 应 脑 区 大 多 属于 感觉 联合 皮质 。 根 据 大 脑 皮 质 的 三 级 分 层 结构 ， 
感觉 器 官 获 得 的 信息 首先 到 达 第 一 级 区 ， 在 经 由 具备 高 度 特异 性 神经 
元 克 择 之 后 ， 信 息 传 递 至 第 二 级 区 。 


第 二 级 区 的 神经 元 模式 特异 性 较 弱 ， 联 系 神经 元 占 优势 ， 在 这 一 
部 分 对 某 一 特定 感觉 万 官 的 信息 进行 整合 ， 提 取 了 宛 余 和 缺乏 关联 的 
特征 后 ， 这 些 特征 通过 不 同 的 渠道 传递 至 第 三 级 区 ， 在 此 皮质 区 域 ， 
特征 会 进行 融合 和 统一 表达 ， 或 者 称 为 特征 的 " 配 准 关联 ?”。 将 经 过 配 
准 关 联 的 特定 感官 信息 作为 标准 对 相应 的 第 一 基本 机 能 联合 区 中 包含 
的 特定 目标 信息 进行 检测 ， 检 测 到 目标 之 后 ， 在 注意 机 制 相 关 脑 区 的 
协助 下 向 感觉 器 冒 发 出 特定 指令 ， 对 目标 进行 跟 躁 。 需 要 强调 的 是 ， 
这 种 在 第 二 基本 机 能 联合 区 和 广 意 机 制 相关 脑 区 进行 的 目标 跟 蹊 是 不 
需要 人 的 主观 意识 的 。 


在 第 三 级 区 ， 这 些 信 息 经 过 多 模式 神经 元 的 合成 处 理 形成 特定 的 
感觉 景 稍 ， 并 将 感官 信息 的 投射 转变 为 大 脑 皮 质 内 部 的 组 织 活动 。 经 
过 第 三 级 区 的 处 理 ， 获 取 的 特征 集 变 得 更 加 精准 简约 ， 各 特征 之 则 的 
关联 关 系 也 得 以 进一步 加 强 。 


颌 叶 是 人 脑 第 三 基本 机 能 联合 区 特殊 而 重要 的 一 个 部 分 ， 十 人 脑 
对 信息 进行 天 联 融 合 的 关键 。 在 大 脑 的 进化 史上 ， 和 额 叶 是 最 后 出 现 的 


部 分 ,构造 也 最 为 复 洒 ， 它 的 面积 几乎 占 了 大 脑 皮 质 的 V2。 其 对 信息 
的 整合 传播 过 程 除 了 具有 人 脑 第 二 基本 机 能 联合 区 描述 的 普遍 特性 
外 ， 还 有 目 己 更 重要 的 功能 。 


第 三 基本 机 能 联合 区 最 大 的 特点 征 不 仅 与 人 脑 的 下 部 和 网 状 组 织 
相 联系 ， 与 大 脑 庆 质 的 所 有 其 他 外 表 部 分 都 有 联系 ， 而 且 与 第 二 基本 
机 能 联合 区 信息 传递 方向 反 同 而 行 ， 其 信息 传递 方 问 是 从 高 级 到 低 
级 、 从 上 到 下 的 。 第 三 基本 机 能 联合 区 与 大 脑 皮 质 所 有 的 外 表 部 分 都 
有 联系 ， 由 此 ， 其 可 以 与 多 个 感官 的 大 脑 度 质 投影 区 进行 互动 ， 将 接 
收 的 单 感官 信 息 综 合 形成 多 感官 信息 ， 在 这 里 完成 多 源 异 质 信息 融合 
过 程 。 


人 脑 是 并 行 工作 的 。 处 理 同 一 个 任务 的 神经 元 可 能 有 很 多 个 ， 如 
视觉 画面 由 数 百 万 个 神经 元 同时 处 理 ， 每 个 神经 元 只 负责 处 理 一 个 地 
方 的 一 种 颜色 信息 ， 所 有 视神经 合 在 一 起 处 理 一 幅 彩 色 的 图 像 。 同 一 
个 任务 所 涉及 的 信息 可 以 从 一 个 处 理 场 所 同时 传输 到 男 一 个 处 理 场 
所 ， 有 点 儿 像 计算 机 中 的 并 行 传输 ， 只 是 并 行规 模 比 计算 机 中 的 要 大 
得 多 。 担 任 相 同 任务 或 目的 地 相 邻 的 传输 神经 纤维 肖 肖 合 并 在 一 起 组 
成 粗大 的 神经 束 ， 也 就 是 神经 解剖 中 的 日 质 ， 神 经 束 到 目的 地 后 再 分 
散 到 达 各 目的 目标 ， 从 而 形成 规模 巨大 、 有 规律 的 信息 传输 通道 。 这 
种 工作 特点 和 点 对 点 直接 传导 的 特性 使 脑 中 信息 的 表示 方法 与 计算 机 
中 的 不 一 样 ， 在 计算 机 中 一 根 线路 可 以 传递 不 同 的 信息 ， 所 以 相同 类 
型 但 内 容 不 一 样 的 信息 用 不 同 的 数字 表示 ; 在 人 脑 中 相同 类 型 的 信息 
可 以 用 同一 种 神经 冲动 发 放 模 式 表 示 ， 而 用 不 同 的 传输 来 源 区 别 。 


人 脑 信息 融合 是 实时 动态 发 生 的 。 同 步 放 电机 制 认 为 ,信息 融合 
不 是 由 特定 的 神经 元 表征 的 ， 而 主要 是 由 神经 元 神 动 发 放 过 程 中 的 时 
间 关 系 表征 的 。 在 没有 信息 融合 的 状态 下 ， 不 同 的 神经 元 都 是 独立 活 
动 的 。 当 不 同 的 神经 元 活动 过 程 时 间 一 致 的 时 候 ， 即 为 需要 进行 信息 
融合 的 时 候 ， 这 种 活动 过 程 中 的 时 间 一 致 性 可 以 作为 信息 融合 的 表 


征 。 源 信息 发 生变 化 时 ， 融 合 形成 的 信息 也 随 之 发 生 相 应 变化 ， 
此 ， 这 种 信息 的 融合 是 动态 的 。 例 如 ， 选 购 住房 是 一 个 人 的 大 脑 对 多 
方 信 息 进 行 采集 、 猎 选 、 关 联 、 融 合 之 后 形成 决策 的 过 程 ， 如 采用 人 
工 智能 来 实现 这 个 决策 过 程 ， 分 析 过 程 是 对 之 前 输入 的 信息 根据 重要 
程度 的 不 同 赋予 不 同 的 权重 ， 进 而 进行 数据 融合 分 析 ， 最 后 输出 的 可 
能 是 一 个 完全 基于 理性 思考 得 出 的 答案 。 但 人 在 选 购 住房 的 过 程 中 ， 
人 脑 在 反复 进行 信息 融合 和 决策 这 个 过 程 ， 通 过 不 断 融 合演 化 的 数据 
言 轧 及 不 断 地 修正 错误 决策 ， 最 终 做 出 最 大 限度 地 符合 用 户 需 求 的 实 
时 、 动 态 的 决定 。 相 比 人 工 智能 在 特定 时 间 根 据 特定 输入 信息 得 到 的 
决策 ， 人 脑 体 现 了 信息 处 理 的 更 高 级 的 形态 。 


二 节 
千 能 数据 处 理 


大 数据 时 代 ， 数 据 爆 发 增长 、 海 量 集 聚 ， 数 据 类 型 和 模式 多 样 、 
关联 关系 楷 杂 ， 数 据 呈 现 出 大 规模 、 多 源 异 构 、 路 领域、 跨行 业 、 跨 
语言 、 实 时 联动 等 特征 ， 数 据 之 间 的 关系 变 得 生丝 万 缕 ， 数 据 间 相互 
杂乱 、 无 序 的 关联 、 交 叉 和 融合 给 数据 存储 、 分 析 与 处 理 带 来 极 大 的 
挑战 。 大 数据 乃至 超 数 据 时 代 ， 如 何 将 海量 数据 间 杂 乱 、 无 序 的 天 
联 、 交 叉 和 融合 智能 聚合 ， 形 成 有 序 化 、 结 构 化 的 块 数据 ， 征 激活 数 
据 的 前 提 ， 也 是 释放 数据 价值 的 关键。 


(一 ) 大 数据 融合 处 理 模 式 


数据 融合 是 一 种 针对 多 个 来 源 的 数据 综合 分 析 处 理 的 技术 。 人 中) 在 
多 源 数 据 融合 系统 中 ， 通 过 模仿 人 脑 处 理 复杂 信息 过 程 ， 各 类 数据 源 
提供 的 多 源 信 息 与 数据 可 能 具有 各 不 相同 的 特征 ， 而 这 些 特征 也 是 多 
样 的 ， 可 能 是 相互 文 持 或 互补 的 、 确 定 或 者 模 灶 的， 还 有 可 能 是 冲突 
歼 导 的 ， 具 有 差异 性 。 在 获取 数据 源 后 ， 通 过 有 效 角 选 ， 把 它 在 时 至 
上 互补 和 宛 余 的 数据 按照 某 种 组 合 规则 进行 优化 处 理 ， 多 方位 、 多 层 
次 的 数据 化 处 理 后 获得 对 监测 目标 的 理解 、 认 知 及 更 多 有 价值 的 信 
思 ， 并 且 获 得 比 它 的 各 个 部 分 所 构成 的 系统 更 高 质量 的 性 能 ， 作 为 最 
后 协同 作用 的 结果 。 多 源 数据 融合 技术 能 够 在 多 层次 上 综合 处 理 不 同 
类 型 的 信息 和 数据 ， 处 理 的 对 象 可 以 是 属性 、 数 据 、 证 据 等 。 按 照 数 
据 抽象 程度 ， 可 以 分 为 数据 级 融合 、 特 征 级 融合 和 决策 级 融合 三 种 模 
ey 


数据 级 融合 。 数 据 级 融合 属于 数据 融合 的 第 一 层 ， 该 层 在 探测 
到 的 量 测 或 经 过 简单 预 处 理 后 直接 进行 融合 (如 图 4-2 所 示 ) 。 这 种 融 
合 的 好 处 是 可 以 提供 现场 原始 信息 ， 也 是 其 他 两 种 层次 融合 无 法 实现 
的 ， 但 其 局 限 性 也 很 明显 。 例 如 ， 由 于 处 理 的 数据 量 大 ， 计 算 处 理 时 
间 长 ， 系 统 的 实时 性 和 抗 干扰 能 力 不 强 ， 由 于 原始 数据 不 完全 和 不 稳 
定 ， 需 有 良好 的 纠 错 能 力 ， 且 各 数据 源 数据 类 型 需 来 源 于 同 质 类 型 以 
达到 其 校准 精读 与 配 准 关系 。 通 常用 于 多 源 图 像 复合 和 基于 卡尔 曼 滤 
波 早 的 多 源 数据 融合 方法 等 方面 。 
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融合 的 身份 识别 


图 4-2 数据 级 融合 


特征 级 融合 。 特 征 级 融合 是 第 二 层 数 据 融合 。 这 一 层 需要 先 对 
数据 做 提取 特征 处 理 ， 再 对 数据 进行 综合 分 析 与 融合 (如 图 4-3 所 
示 ) 。 一 般 情况 下 ， 把 像素 信息 的 充分 统计 量 作 为 提取 要 求 的 特征 数 
据 ， 接 着 按照 该 统计 量 对 多 源 数据 做 处 理 ， 包 括 分 类 、 聚 集 与 综合 。 
其 优点 在 于 有 助 于 增强 处 理 的 实时 性 ， 融 合 结果 中 包含 的 特征 数据 对 
决策 判断 具有 重要 作用 。 由 其 不 同 源 分 成 特性 与 状态 融合 两 种 ， 前 者 
为 特征 层次 联合 识别 ， 具 体 方法 主要 有 Kk 阶 最 近邻 分 类 算法 尘 、 特 征 
压缩 聚 类 法 与 神经 网 络 等 ， 属 于 模式 识别 范畴 ;后 者 主要 使 用 的 算法 
或 理论 有 交互 式 多 模型 法 、 多 假设 法 、 联 合 概率 数据 关联 和 序 贯 处 理 
理论 等 ， 较 多 体现 在 目标 跟踪 领域 上 。 
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图 4-3 特征 级 融合 


决策 级 融合 。 决 策 级 融合 是 最 高 层次 的 数据 融合 ， 该 层 所 得 结 
果 对 目标 状态 进行 判断 决策 ， 为 指挥 控制 决策 提供 实时 、 合 理 、 有 效 
的 依据 。 对 每 个 数据 源 都 需要 进行 预 处 理 、 特 征 提取 、 识 别 与 判决 等 
具体 步骤 ， 形 成 对 量 测 目标 的 初步 判断 ， 接 着 进行 决策 级 融合 判断 ， 
获得 综合 判断 结果 (如 图 4-4 所 示 ) 。 该 结果 作为 三 级 融合 结果 ， 直 接 
影响 决策 水 平 。 因 此 ， 决 策 级 融合 是 以 具体 决策 需求 为 出 发 点 ， 在 选 
用 合适 融合 技术 的 同时 有 效 结合 上 一 级 提供 的 各 量 测 特征 数据 ， 呈 现 
关于 目标 的 简明 直观 结果 的 过 程 。 决 策 级 融合 的 优点 和 缺点 恰好 与 数 
据 级 融合 相反 。 主 要 缺点 是 传感器 在 局 部 完成 的 预 处 理 代价 高 ， 数 据 
言 息 处 理 效 果 比 较 依赖 预 处 理 阶段 的 性 能 。 主 要 优点 是 融合 中 心 处 理 
代价 低 ， 数 据 交互 量 小 ， 有 较 强 的 抗 干 扰 能 力 ， 容 错 性 能 好 ， 当 有 传 
感 器 出 现 异常 情况 时 ， 选 用 适当 融合 算法 ， 可 将 影响 降 到 最 小 。 决 策 
级 融合 常 采用 的 方法 有 D_Ss 证 据 理论 泻 、 模 糊 推 理 理论 和 专家 系统 


和 。 
= 于 
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身份 判决 


图 4-4 决策 级 融合 


(二 ) 数据 融合 处 理 局 限 


数据 融合 充分 利用 多 数据 源 的 优势 ， 通 过 对 不 同 数据 有 效 关 联 和 
融合 ， 把 不 同 数据 源 在 空间 或 时 间 上 的 元 余 或 互补 信息 ， 依 据 某 种 准 
则 进行 组 合 ， 以 获得 被 测 对 象 的 一 致 性 解释 和 描述 ， 增 强 了 数据 分 析 
的 有 效 性 和 高 价值 性 ， 能 有 效 消除 单个 数据 产 的 局 限 性 。 但 是 ， 多 源 
数据 融合 的 应 用 仍然 存在 一 定 的 局 限 性 。 


多 源 数据 融合 结果 并 不 能 代替 单一 高 精度 数据 源 测量 结 
果 。 尽 管 多 数据 源 的 组 合 可 以 增强 块 数据 系统 的 健壮 性 ， 但 这 些 数据 
源 并 不 一 定 能 检测 到 系统 所 感 兴趣 的 理想 特征 值 。 例 如 ， 列 车 运行 过 
程 中 ， 列 车 的 载重 情况 、 运 行 速度 、 振 动 特性 等 数据 为 列车 轮 系 工作 
状态 的 诊断 提供 了 极为 重要 的 参考 信息 ， 但 这 些 数据 无 法 直接 给 出 轴 
瓦 的 工作 温度 ， 采 用 一 个 温度 传 感 属 直接 测量 温度 反而 要 人 简单 易 行 得 
多 。 

多 源 数 据 融 合 处 理 不 可 能 修正 预 处 理 或 单数 据 源 处 理 时 的 
错误 。 也 就 是 说 ， 下 一 级 的 数据 融合 处 理 不 能 弥补 上 一 级 处 理 过 程 中 
造成 的 信息 损失 。 当 信号 的 特征 没有 被 正确 提取 时 ， 数 据 融合 得 到 的 
结论 肯定 是 错误 的 ， 数 据 融 合 不 可 能 修正 这 些 特征 。 例 如 ， 在 管道 洪 
漏 检测 中 ， 如 果 负 压 波 信 号 中 泄漏 发 生 的 时 间 特 征 点 没有 准确 获得 ， 
泄漏 定位 的 准确 性 就 无 法 得 到 保证 ， 其 他 的 技术 措施 如 时 间 对 准 、 流 
量 平衡 等 都 不 可 能 改变 这 种 结果 。 


多 源 数据 融合 模型 的 不 准确 将 导致 融合 结果 错误 ， 这 种 错 
误 在 后 续 处 理 中 是 无 法 修复 的 。 例 如 ， 利 用 光 吸 收 机 理 测量 粉尘 
时 ， 无 法 建立 粒子 尺寸 、 构 成 、 浓 度 等 与 光 吸 收 特 性 关系 的 数学 模 
型 ， 而 是 利用 现场 标定 的 方法 确定 光 吸 收 程度 与 粉尘 浓度 之 间 的 关 
系 ， 这 种 相对 关系 用 任何 融合 技术 都 无 法 改变 。 实 际 上 ， 对 处 于 复杂 
观测 环境 〈 如 复杂 噪声 环境 ) 的 传感器 数据 ， 用 模型 来 准确 融合 和 描 
述 传感器 数据 是 非常 困难 的 。 


多 源 数据 融合 算法 的 选择 和 设计 缺乏 统一 规范 ， 使 数据 融 
合 系统 的 设计 带 有 一 定 的 盲目 性 。 由 于 数据 来 源 不 同 ， 一 种 单一 
的 融合 算法 可 能 难以 实现 预期 的 融合 效 末 ， 往 往 需要 综合 各 [学科 的 
多 种 技术 ， 如 信号 处 理 、 图 像 处 理 、 模 式 识别 、 统 计 佑 计 、 目 动 推理 
理论 和 人 工 智能 等 ， 但 数据 融合 至 今 并 未 形成 基本 的 理论 框架 和 有 效 
的 广义 融合 模型 及 算法 ， 绝 大 部 分 工作 都 是 围绕 特定 应 用 领域 内 的 具 
体 问题 展开 的 。 也 惑 是 讽 ， 目 前 对 数据 融合 问题 的 研究 都 是 根据 问题 
的 种 类 ， 各 目 建 立 直观 融合 准则 ， 并 在 此 基础 上 形成 所 谓 的 最 佳 融 合 
方案 ， 充 分 反映 数据 融合 技术 所 固有 的 面 癌 对 象 的 特点 ， 难 以 构建 完 
整 的 理论 体系 。 对 于 给 定 的 数据 如 何 选择 和 设计 合适 算法 来 进行 有 效 
的 信息 融合 是 数据 融合 技术 发 展 所 面临 的 挑战 。 


(三 ) 基于 人 脑 模式 的 数据 关联 融合 


人 脑 是 最 好 的 块 数据 分 解 结构 和 融合 结构 。 人 脑 对 于 信息 的 关联 
融合 古 具 有 系统 性 和 层次 性 的 ， 人 脑 首先 会 将 信息 整合 成 知识 ， 其 次 
将 相关 知识 融合 成 一 张 张 知 识 图 谱 ， 最 后 形成 一 个 巨大 的 知识 网 络 。 
基于 人 脑 模式 的 数据 关联 融合 是 以 实现 海量 数据 的 深层 次 开发 和 利用 
为 目标 ， 综 合 运 用 数据 科学 、 计 算 机 科学 、 知 识 科学 等 多 学 科 的 理论 
方法 ， 拟 从 知识 组 织 的 角度 架构 探索 大 数据 关联 融合 框架 模型 ， 提 出 
对 多 产 、 分 若 重 复 、 被 淹没 的 数据 资源 进行 数据 关联 融 合 的 理论 框 染 
与 解决 方案 。 


知识 融合 流程 。 解 决 复杂 问题 的 最 佳 方法 是 将 问题 分 解 为 多 个 
较 简单 的 问题 ， 然 后 利用 简单 知识 解决 简单 问题 ， 进 而 综合 全 面 地 认 
识 事物 并 解决 复杂 问题 。 时 基于 知识 的 角度 ， 人 脑 模 式 的 数据 关联 融 
合 过 程 同 样 是 一 个 解决 问题 的 过 程 ， 涉 及 数据 到 知识 的 转化 、 知 识 到 
再 生 知识 的 增值 过 程 ， 这 些 过 程 需要 通过 信息 净化 、 知 识 关联 和 推理 


完成 ， 以 此 实现 数据 知识 化 、 知 识 有 序 化 和 知识 服务 化 的 目标 。 以 政 
府 数据 为 例 ， 政 府 网 站 信息 资源 知识 融合 流程 主要 包括 知识 源 采 集 与 
加 工 、 知 识 抽取 与 表示 、 知 识 融合 与 进化 及 知识 服务 与 应 用 等 流程 
(如 图 4-5 所 示 ) 。 


知识 融合 要 素 
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知识 源 采 集 
与 加 工 


图 4-5 政府 网 站 信息 资源 知识 融合 流程 
知识 融合 原理 、 方 法 和 技术 。 基 于 知识 融合 的 需求 和 流程 分 


析 ， 以 面向 领域 决策 的 知识 服务 为 目标 ， 知 识 融 合 需 要 多 项 关键 技术 
和 方法 作为 文 撑 ， 以 为 知识 融合 框架 构建 提供 相关 原理 、 方 法 和 技术 
文 撑 。 上 前 和 完 ， 为 解决 知识 融合 的 体系 结构 规划 与 设计 的 问题 ， 会 涉及 
知识 空间 理论 、 知 识 组 织 与 知识 服务 相关 理论 和 方法 等 ; 其 次 ， 为 解 
决 知识 融合 的 实现 方法 的 问题 ， 会 涉及 语义 、 领 域 知识 本 体 等 相关 方 
法 和 技术 ， 大 数据 相关 方法 和 技术 ， 文 本 挖掘 与 知识 发 现 理 论 和 技 
术 ， 可 视 化 与 人 机 交互 理论 和 方法 等 (如 表 4 -1 所 示 ) 。 
表 4 -1 知识 融合 原理 、 方 法 和 技术 


原理 、 方 法 和 技术 对 知识 融合 框架 构建 的 支撑 解决 问题 
知识 空间 理论 主要 涉及 知识 空间 多 维度 的 知识 分 类 | 知识 融合 的 体 
与 知识 管理 ,为 框架 构建 提供 目标 导 | 系 结构 规划 与 
向 和 理论 依据 设计 


知识 组 织 与 知识 服务 相 | 从 知识 组 织 和 知识 服务 层面 为 框架 构 
关 理 论 和 方法 建 提供 理论 依据 和 方法 来 源 


语义 、 领 域 知 识 本 体 等 | 实现 领域 知识 融合 所 需 的 关键 技术 ，| 知识 融合 的 实 


相关 方法 和 技术 如 知识 抽取 、 知 识 推 理 、 语 义 匹 配 | 现 方法 
等 ， 都 是 以 知识 本 体 和 语义 规则 为 基 


础 而 展开 的 


大 数据 相关 方法 和 技术 | 旨 在 从 大 数据 的 知识 挖掘 与 知识 可 视 
化 分 析 等 层面 理解 面向 知识 融合 的 基 
础 技术 问题 


文本 挖掘 与 知识 发 现 理 | 对 知识 融合 所 需要 实现 的 知识 表示 、 
论 和 技术 知识 重组 、 知 识 关联 、 知 识 聚 类 等 过 
程 提供 底层 实现 途径 


可 视 化 与 人 机 交互 理论 | 旨 在 从 知识 表现 层面 解决 面向 领域 决 
和 方法 策 的 知识 融合 可 视 化 技术 问题 


知识 融合 体系 结构 。 多 源 数据 知识 融合 不 仅 涉及 多 方面 、 多 层 
次 的 领域 知识 分 析 和 处 理 ， 而 且 是 一 个 粗 、 细 粒度 知识 不 断 欠 代 和 转 
换 的 过 程 。 例 如 ， 从 网 页 数据 中 获取 知识 是 粗 粒 度 知 识 同 细 粒 度 知 识 
的 转化 ， 对 知识 进行 重组 、 关 联 、 聚 类 分 析 后 形成 新 的 知识 是 细 粒度 
知识 丫 粗 粒度 知识 的 转化 。 为 了 提高 知识 融合 过 程 中 这 些 转化 操作 的 
目 适 应 性 ， 有 必要 设 定 数据 知识 融合 流程 规划 与 设计 相应 的 知识 融合 


体系 结构 ， 明 确 从 知识 资源 到 知识 服务 的 知识 增值 和 知识 流动 的 知识 
融合 过 程 。 多 源 数 据 知 识 融 合体 系 结构 是 一 个 三 层 组 织 结构 ， 包 括 知 
识 痪 源 层 、 知 识 组 织 层 和 知识 服务 层 。 其 中 ， 知 识 资源 层 对 各 类 数据 
进行 有 序 化 处 理 ， 为 数据 资源 的 知识 融合 做 好 数据 准备 ， 知 识 组 织 层 
对 数据 闹 源 进行 知识 化 组 织 和 知识 融合 处 理 ， 形 成 领域 决 全 所 需 的 知 
识 ; 知识 服务 层 根据 用 户 的 知识 需求 对 知识 组 织 层 进 行 挖 气 ， 最 后 将 
知识 融合 的 结果 以 可 视 化 形式 提供 给 用 户 (如 图 4-6 所 示 ) 


知识 人 质 源 层 是 整个 知识 融合 体系 结构 的 基础 ， 通 过 各 类 数据 的 有 
序 化 过 程 形 成 粗 粒 度 知 识 ， 为 知识 组 织 层 粗 粒 度 知 识 细 化 提供 数据 来 
产 ， 是 实现 知识 融合 的 底层 数据 。 该 层 的 主要 任务 是 完成 数据 采集 ， 
并 依据 一 些 用 于 数据 痪 源 描述 的 元 数据 标准 对 多 源 海量 数据 进行 有 序 
化 组 织 ， 使 之 有 序 和 可 用 。 此 层 数 据 包 罗 万 象 ， 主 要 是 行 关联 融合 的 
数据 。 政 府 网 站 信息 资源 知识 融合 中 ， 该 层 数据 主要 包括 从 政府 门户 
网 站 采集 获取 的 信息 公开 、 新 闻 工 作 、 政 策 法 规 、 统 计数 据 、 文 献 痪 
料 、 社 会 服务 等 栏目 中 不 同 主题 的 网 页 文本 等 ， 这 些 网 页 文本 多 是 半 
结构 化 的 HTML 格 式 源 码 数 据 ， 除 了 网 页 文本 正文 外 ， 还 包含 一 些 噪 
声 数 据 ， 需 要 对 网 页 内 容 进 行 去 品 处 理 。 


知识 地 图 服务 
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图 4-6 数据 知识 融合 流程 


知识 组 织 层 主要 通过 完成 知识 资源 层 的 数据 关联 ， 将 数据 资源 升 
格 为 知识 资源 ， 实 现 数 据 资源 内 容 的 知识 化 和 知识 再 生 。 在 知识 组 织 
层 将 利用 一 些 知 识 组 织 方法 和 技术 ， 如 语义 网 、 知 识 本 体 等 ， 建 立 知 
识 间 的 语义 关系 ， 形 成 面向 特定 主题 的 知识 集合 。 这 些 知识 集合 是 经 
知识 融合 再 组 织 的 知识 产品 ， 是 实现 知识 服务 的 重要 保证 。 建 立 知识 
集合 首先 需要 将 知识 分 解 为 细 粒 度 的 知识 单元 ， 通 过 粒度 关联 和 聚 
类 ， 将 若干 个 知识 单元 融合 形成 粒度 较 粗 的 知识 对 象 ， 再 将 多 个 不 同 
类 型 知识 对 象 相互 关联 形成 知识 网 络 ， 以 便 知识 服务 化 。 


知识 服务 层 是 实现 知识 融合 服务 的 接口 层 ， 它 根据 用 户 的 知识 需 
求 ， 运 用 知识 挖掘 技术 、 推 理 技 术 、 关 联 分 析 技 术 等 对 知识 组 织 层 的 
资源 进行 运算 ， 为 用 户 提供 所 需 的 知识 。 知 识 服 务 层 不 仅 包 括 原 有 数 
据 资 源 服 务 ， 而 且 包 括 知识 导航 服务 、 知 识 地 图 等 各 种 类 型 的 知识 服 
务 应 用 系统 ， 同 时 还 可 以 通过 获取 用 户 对 知识 服务 系统 的 反馈 ， 进 一 
步 完 善 和 更 新知 识 融 合 处 理 与 分 析 过 程 。 在 知识 服务 层 中 ， 知 识 呈 现 
狙 粒度 和 细 粒 度 的 动态 性 变化 ， 经 过 粗 粒 度 知 识 细 化 和 细 粒 度 知 识 重 
组 等 环节 ， 形 成 面 癌 领域 问题 决策 的 粗 粒度 知识 ， 并 通过 适当 方式 呈 
现 给 用 户 ， 最 终 实 现 知 识 服 务 。 


1 ” 王 海 笑 .多 源 数据 关联 与 融合 算法 研究 [D] .无 锡 : 江南 大 学 ，2016: 6-11. 
2. 和 尔 受 滤波 ， 是 指 一 种 利用 线性 系统 状态 方程 ， 通 过 系统 输入 输出 观测 数据 ， 对 系 


统 状态 进行 最 优 估计 的 算法 。 由 于 观测 数据 中 包括 系统 中 的 噪声 和 干扰 的 影响 ， 最 优 估 
计 也 可 被 看 作 滤 波 过 程 。 

k 阶 最 近邻 分 类 算法 ， 是 一 种 理论 上 比较 成 熟 的 方法 ， 也 是 最 简单 的 机 器 学 习 算法 
之 一 。 该 方法 的 思路 是 : 如 果 一 个 样本 在 特征 空间 中 的 k 个 最 相似 ( 即 特 征 空间 中 最 邻 
近 ) 的 样本 中 的 大 多 数 属于 某 一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 。 

D-S 证 据 理 论 是 登 普 斯 特 于 1967 年 首先 提出 ， 由 他 的 学 生 谢 弗 于 1976 年 进一步 发 展 
起 来 的 一 种 不 精确 推理 理论 ， 也 称 为 证 据 理 论 ， 属 于 人 工 知 能 范畴 ， 最 早 应 用 于 专家 系 
统 中 ， 具 有 处 理 不 确定 信息 的 能 


5. 黄 新 平 .政府 网 站 信息 资源 多 维 语义 知识 融合 研究 [D| .吉林 : 吉林 大 学 ，2017: 


ee 


bn 


第 三 节 
数据 融合 : 构建 新 型 数据 关系 


激活 数据 学 中 的 关联 融合 是 继承 了 路 界 融 合理 论 模式 的 具体 表 
现 ， 主 张 数据 的 多 源 、 动 态 、 器 界 融 合 。 天 联 融 合 处 于 激活 数据 学 中 
数据 处 理 的 第 二 个 阶段 ， 该 阶段 输出 的 数据 质量 直接 决定 了 目 激 活 阶 
段 和 群体 智能 阶段 的 效率 与 质量 。 在 激活 数据 学 中 的 关联 融合 对 搜索 
出 来 的 模糊 结果 数据 集 进 行 降 维 去 品 、 关 联 识 别 、 融 合 重 构 等 处 理 之 
后 ， 数 据 与 数据 之 间 已 然 构建 了 一 种 新 型 数据 关系 。 这 种 新 型 数据 关 
系 有 别 于 传统 的 数据 关系 ， 它 融合 了 数据 的 动态 演化 ， 统 一 了 数据 的 
不 确定 性 ， 使 数据 的 特征 属性 更 明显 ， 数 据 之 间 的 关联 度 更 高 ， 数 据 
价值 鼎 显 ， 为 激活 数据 学 强调 的 目 激活 阶段 输入 了 高 精度 的 数据 集 ， 
降低 数据 处 理 成 本 ， 提 高 数据 处 理 效 率 。 


降 维 去 噪 是 关联 融合 过 程 的 第 一 步 ， 是 决定 数据 分 析 结 末 的 关键 
步骤 。 在 进行 数据 分 析 的 时 候 ， 我 们 经 常会 遇 到 多 个 变量 ， 而 且 在 多 
数 情 况 下 ， 多 个 变量 之 间 常 常 存 在 一 定 的 相关 性 ， 当 变量 个 数 较 多 且 
变量 之 则 存在 复 洒 关系 时 ， 会 显著 增强 分 析 问 题 的 复 洒 性 ， 这 时 整 需 
要 寻找 一 种 方法 将 多 个 变量 绿 合 为 少数 几 个 代表 性 变量 ， 使 这 些 变 量 
既 能 够 代表 原始 变量 的 绝 大 多 数 信息 又 互 不 相关 ， 便 于 数据 的 建 模 与 
分 析 处 理 。 降 维 去 噪 即 根据 数据 分 析 的 需求 、 数 据 量 、 计 算 机 处 理 能 
力 、 对 时 间 的 要 求 等 多 方面 的 因素 ， 对 数据 进行 分 级 降 维 去 品 ， 杜 选 
出 有 效 数 据 ， 保 证 数据 分 析 的 精确 度 。 


数据 降 维 。 数 据 激 活 中 的 降 维 去 噪 包含 数据 降 维 和 数据 去 噪 两 
个 部 分 ， 数 据 降 维 是 第 一 步 。 总 的 来 说 ， 降 维 分 析 算法 的 共同 特点 是 
将 模型 中 较 多 的 维度 通过 映射 的 方法 变 成 较 少 的 维度 ， 从 而 达到 城 少 
计算 量 或 改善 变量 间 关 系 的 目的 。 数 据 降 维 的 问题 可 以 按照 其 原因 分 
为 四 大 类 ， 分 别 为 降低 学 习 〈 建 模 ) 成 本 、 提 高 学 习 ( 建 模 ) 性 能 、 
不 相关 维度 约 简 和 元 余 维度 约 简 (如 图 4-7 所 示 ) 。 
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维 ] 休 | 
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图 4-7 数据 降 维 问题 的 分 类 


降低 学 习 〈 建 模 ) 成 本 和 提高 学 习 ( 建 模 ) 性 能 可 以 进一步 分 为 
记 孙 约 简 和 属性 约 简 两 个 子 问 题 ， 其 中 记录 约 简 在 更 多 的 情况 下 被 具 
体 化 为 样本 分 解 ， 属性 约 简 则 包含 功能 分 解 和 属性 分 解 两 个 方面 。 不 
相关 维度 约 简 和 元 余 维度 约 简 可 以 进一步 分 为 特征 选取 和 记录 选取 两 
个 子 问 题 。 竺 征 选取 的 目的 是 选取 重要 特征 。 记 录 选 取 过 程 相对 简 
单 ， 但 正如 数据 集中 有 些 属性 比 其 他 属性 重要 一 样 ， 正 确 的 选取 对 后 
续 的 数据 挖掘 结果 更 有 帮助 。 在 了 解 了 数据 降 维 问题 类 别 之 后 ， 需 要 
根据 实际 需求 选择 恰当 的 降 维 算法 对 其 进行 分 析 处 理 ， 目 前 ， 数 据 降 
维 方法 可 以 分 为 线性 方法 和 非 线性 方法 两 类 。 


当 数 据 集中 ， 各 个 变量 间 是 独立 无 关 的 ， 或 者 数据 为 非 线 性 时 可 
在 一 定 程度 上 用 线性 结构 近似 表达 的 时 候 ， 可 以 运用 线性 方法 对 数据 
进行 降 维 。 多 维 尺度 法 是 一 种 将 多 维 空间 的 研究 对 象 (样本 或 变量 ) 
简化 到 低 维 空间 进行 定位 、 分 析 和 归 类 ， 同 时 又 保留 对 象 间 原始 关系 
的 数据 分 析 方 法 。 主 成 分 分 析 法 与 多 维 尺度 法 类 似 ， 是 将 多 个 变量 通 
过 线性 变换 以 选 出 较 少 个 数 重 要 变量 的 一 种 多 元 统计 分 析 方 法 。 线 性 
判别 分 析 法 与 主 成 分 分 析 法 类 似 ， 十 将 高 维 的 模式 样本 投影 到 最 佳 鉴 
别 矢 量 空间 ， 投 影 后 保证 模式 样本 在 新 的 子 空间 有 最 大 的 类 间距 离 和 
最 小 的 类 内 距离 ， 以 达到 抽取 分 类 信息 和 压缩 特征 空间 维 数 效 采 的 数 
据 分 析 方 法 。 独 立成 分 分 析 法 通常 被 用 来 提取 独立 统计 成 分 ， 同 时 最 
大 化 非 高 斯 特性 的 测量 ， 如 峰 度 和 偏 度 ， 或 者 将 交互 信息 减 到 最 少 。 


当 数据 为 高 度 非 线性 或 强 属 性 相关 时 ， 运 用 线性 方法 对 数据 集 进 
行 降 维 处 理 的 效果 并 不 是 很 理想 ， 在 这 种 情况 下 ， 需 要 用 非 线性 方法 
对 数据 集 进 行 降 维 。 数 据 降 维 的 非 线性 方法 有 3 种 。 一 是 局 部 线性 嵌入 
算法 。 该 方法 基于 简单 的 几何 直观 ， 将 数据 集 的 每 个 点 都 线性 人 藤 入流 
形 局 的 一 个 局 部 线性 贴 片 中 构造 低 维 空间 ， 例 如 保存 原始 数据 的 局 部 
线性 关系。 二 是 拉 普 拉 斯 特征 映射 法 。 该 方法 基于 无 监督 学 习 流 形 的 
想法 ， 首 先 在 数据 图 形 中 构建 一 个 算法 ， 其 次 从 与 这 个 算法 相 一 致 的 
几 个 最 小 特征 值 的 特征 癌 量 中 得 出 降 维 后 的 低 维 数据 集 。 三 是 扩散 映 


射 法 。 该 方法 将 每 个 数据 集 撕 入 欧 几 里 得 空间 人 法 ) 使 得 空间 的 欧 几 里 得 
式 距离 等 于 数据 的 扩散 距离 。 由 扩散 映射 引起 的 各 种 各 样 的 扩散 距离 
都 可 以 描述 为 数据 的 多 尺度 几何 结构 。 


数据 去 品 。 数 据 经 过 降 维 处 理 之 后 形成 了 特征 鲜明 、 维 数 较 低 
的 数据 集 ， 但 因为 数据 处 理 过 程 中 ， 不 同 维度 的 数据 相互 碰撞 之 后 也 
许 会 产生 部 分 元 余 的 噪声 数据 ， 所 以 还 需要 不 断 地 对 数据 进行 去 品 处 
理 。 数 据 去 噪 的 原理 征 通 过 分 析 干 扰 数据 的 产生 原因 及 存在 形式 ， 对 
数据 流 的 过 程 进 行 考 察 、 分 析 ， 并 总 结 出 一 些 方法 ， 将 干扰 数据 转化 
成 满足 数据 质量 要 求 的 数据 ， 以 达到 提高 数据 质量 的 目的 。 


数据 去 品 的 方法 主要 包括 分 箱 法 、 人 机 结合 法 和 简单 规则 库 法 。 
分 箱 法 通过 利用 属性 值 周围 的 值 平 消 属性 值 ， 这 种 方法 主要 应 用 于 数 
字 类 型 的 数据 ， 对 于 中 文 文本 中 的 噪声 数据 等 并 不 十 分 适用 ;人 机 结 
合法 古 最 简单 有 效 的 方法 ， 计 算 机 和 人 工 相 结合 检查 ， 通 过 计算 机 检 
测 出 可 疑 数 据 ， 然 后 人 工 干预 并 修正 数据 ， 但 是 这 种 方法 的 效率 较 
低 ， 并 且 对 于 计算 机 检测 遗漏 的 可 括 数 据 很 难 修正 ， 人 简单 规则 库 法 通 
过 规则 约束 数据 ， 达 到 检测 并 修正 数据 的 效果 ， 但 是 这 种 方法 需要 建 
立 规则 库 ， 并 且 对 于 规律 性 不 强 的 数据 不 太 适 用 。 


除 此 之 外 ， 还 有 侧重 于 数据 本 身 的 表现 形式 的 处 理 方法 ， 主 要 包 
括 属性 值 的 干扰 数据 检测 、 重 复数 据 检测 和 孤立 点 检测 三 个 方面 。 属 
性 值 的 干扰 数据 检测 主要 针对 属性 错误 值 和 空 值 两 个 方面 。 属 性 错误 
值 检 测 主 要 采用 统计 法 、 聚 类 法 及 关联 规则 法 ， 这 些 方法 都 是 以 统计 
和 总 结 规律 的 方式 计算 并 查找 错误 值 ， 进 而 修正 错误 数据 的 ， 空 值 检 
测 主要 采用 人 工 填写 空缺 值 法 手工 检测 并 填写 属性 值 。 在 有 些 特 殊 情 
况 下 ， 也 可 以 使 用 属性 的 平均 值 、 中 间 值 、 最 大 值 、 最 小 值 或 更 为 复 
杂 的 概率 统计 画 数值 填充 空缺 值 法 。 人 


在 现实 生活 中 ， 第 稼 需要 通过 对 数据 处 理 进 而 分 析出 消费 者 倾 问 
的 评 佑 报告 ， 在 调查 消费 者 倾 同 时， 我 们 关心 的 问题 包括 : 哪 种 产品 
卖 得 好 ? 产品 之 间 哪 些 比 较 相 似 ? 哪些 顾客 更 倾向 于 购买 哪些 产品 ? 
哪些 市 场 已 经 趋 于 饱和 ? 哪些 市 场 还 有 可 供 开 发 的 空 日 ? 这 些 问题 涉 
及 多 个 目 变 量 ， 如 消费 者 的 年 龄 、 消 费 者 的 收入 、 产 品 原 产 地 、 产 品 
分 布 、 产 品 价格 等 ， 这 些 变量 大 多 是 分 类 变量 ， 而 且 不 服从 正太 分 
布 。 因 此 ， 简 单 的 相关 分 析 和 回归 分 析 不 适用 于 探索 这 些 变量 之 间 的 
关系 。 降 维 去 噪 处 理 可 以 在 去 除数 据 噪声 的 基础 上 ， 将 这 些 变量 通过 
特定 的 降 维 算法 降 至 二 维 水 平 ， 并 在 二 维 平 面 上 使 用 图 形 来 表现 变量 
间 的 关系 ， 用 于 分 析 消 费 者 的 购买 行为 与 消费 者 类 型 的 内 在 联系 ， 预 
测 市 场 产品 变化 对 消费 者 的 影响 ， 指 导 新 产品 的 开发 。 


这 是 直接 运用 数据 降 维 去 品 结 果 的 案例 ， 在 激活 数据 学 中 ， 降 维 
去 噪 的 结果 可 以 根据 实际 需求 直接 运用 ， 也 可 以 和 其 他 处 理 步 又 配合 
互 休 ， 通 过 降 维 和 去 品 两 个 步 又 对 数据 进行 初步 沛 选 与 处 理 ， 为 得 到 
最 准确 的 结果 集 近 供 保障 。 


(二 ) 关联 识别 


云 脑 时 代 ， 数 据 呈 现 多 样 性 和 关联 性 ， 在 实体 识别 中 体现 为 识别 
目标 包含 多 类 型 的 数据 对 象 ， 数 据 对 象 之 间 存 在 语义 关系， 比如 引文 
数据 集 (涉及 文章 、 作 者 、 会 议 等 ) 、 电 影 数据 集 (涉及 电影 、 演 
员 、 导 演 、 电 影 公司 等 ) 等 。 这 些 数 据 被 称 为 关联 的 数据 ， 使 用 传统 
的 实体 识别 方法 对 其 进行 处 理 ， 其 准确 性 将 会 受到 限制 ， 因 为 传统 
法 无 法 发 掘 对 象 关 系 ， 具 有 了 明显 的 局 限 性 。 在 全 球 范 围 内 庞大 的 数据 
集群 中 ， 大 数据 的 关联 至 头 重 要 。 激 活 数据 学 所 研究 的 关联 识别 正 是 
通过 一 系列 的 分 析 为 数据 建立 关系 ， 从 而 发 现 规律 ， 辅 助 决 策 。 


数据 关联 是 数据 库 中 存在 的 一 类 重要 的 可 被 发 现 的 知识 。 大 两 个 
或 多 个 变量 的 取 值 之 间 存 在 某 种 规律 性 ， 就 成 为 天 联 。 众 所 周知 ， 沃 
尔 玛 “啤酒 与 尿布 ”的 故事 是 典型 的 关联 关系 ， 通 过 对 交易 信息 进行 关 
联 挖 据 ， 两 件 看 起 来 坚 无 关系 的 商品 产生 了 联系 。 激 活 数 据 学 中 的 天 
联 分析 主 要 包括 特征 提取 、 特 征 关 联 两 个 部 分 。 


特征 提取 “。 用 于 数据 关联 分 析 的 数据 可 能 包含 数 以 百 计 的 属 
性 ， 其 中 大 部 分 属性 与 分 析 任 务 不 相关 ， 是 元 余 的 。 尽 管 领 域 专 家 可 
以 挑选 出 有 用 的 属性 ， 但 这 可 能 是 一 项 困难 而 费时 的 任务 ， 特 别 是 当 
数据 的 行为 不 清 芭 的 时 候 。 遗漏 相关 属性 或 留 下 不 相关 属性 是 有 害 
的 ， 可 能 会 减 级 分 析 进 程 ， 因 此 ， 需 要 先 对 数据 进行 特征 提取 ， 提 取 
数据 中 的 有 效 特征 ， 降 低 数 据 处 理 成 本 ， 提 高 数据 分 析 效 率 。 


特征 提取 是 通过 映 映 的 方法 ， 将 高 维 的 属性 空间 压缩 为 低 维 的 属 
性 空间 ， 得 到 最 小 的 属性 集 ， 使 得 数据 类 的 概念 分 布 尽 可 能 地 接近 使 
用 所 有 属性 的 原 分 布 ， 得 到 的 数据 挖 握 结 采 与 所 有 特征 参加 的 数据 挖 
掘 结 果 相 近 或 完全 一 致 。 对 于 d 个 属性 来 说 ， 有 2 个 可 能 的 子 集 。 通 过 
穷 举 搜索 找 出 属性 的 最 佳 子 集 可 能 是 不 现实 的 ， 尤 其 是 当 d 和 数据 类 的 
数目 增加 时 ， 因 此 ， 特 征 提 取 通 常 使 用 压缩 搜索 空间 的 局 发 式 算法 。 


特征 提取 的 基本 局 发 式 算 法 包括 4 种 。 一 是 逐步 同 前 选择 。 该 过 程 
以 空 届 性 集 起 始 ， 确 定 原 属性 集中 最 好 的 属性 ， 并 将 它 加 入 其 中 。 在 
其 后 的 每 一 次 大 代 ， 将 剩 下 的 原 属性 集中 最 好 的 属性 添加 到 该 集合 
中 。 二 是 逐步 同 后 删除 。 该 过 程 由 整个 属性 集 开 始 ， 在 每 一 步 中 删除 
尚 在 属性 集中 最 差 的 属性 。 三 是 逐步 同 前 选择 和 逐步 同 后 删除 的 组 
合 。 可 以 将 逐步 同 前 选择 和 逐步 同 后 删除 方法 结合 在 一 起 ， 每 一 步 选 
择 一 个 最 好 的 属性 ， 并 在 剩余 属性 中 删除 一 个 最 差 的 属性 。 四 是 决策 
树 归纳 。 决 策 树 归纳 构造 一 个 类 似 流程 图 的 结构 ， 其 中 每 个 内 部 结 点 
表示 一 个 属性 上 的 测试 ， 每 个 分 校对 应 测试 的 一 个 结果 ， 每 个 外 部 结 
点 表示 一 个 类 预测 。 在 每 个 结 点 上 ， 算 法 选择 “最 好 ”的 属性 ， 将 数据 


划分 成 类 。 当 决策 树 用 于 属性 子 集 选择 时 ， 由 给 定 的 数据 构造 决策 
树 。 不 出 现在 树 中 的 所 有 属性 假定 十 不 相关 的 ， 出 现在 树 中 的 属性 形 
成 归 约 后 的 属性 于 集 。 


这 些 方法 的 结束 条 件 可 以 不 同 。 该 过 程 可 以 使 用 一 个 度量 冰 值 来 
决定 何 时 停止 属性 选择 过 程 。 在 某 些 情况 下 ， 我 们 可 能 基于 其 他 属性 
创造 一 些 新 属性 。 这 种 属性 构造 可 以 帮助 提高 准确 度 和 对 高 维 数 据 结 
构 的 理解 ， 例 如 根据 属性 高 度 和 宽度 增加 属性 面积 。 通 过 组 合 属性 ， 
属性 构造 可 以 发 现 天 于 数据 属性 间 联 系 的 缺失 信息 ， 这 对 知识 发 现 是 
有 用 的 。 


特征 关联 。 特 征 提取 之 后 的 数据 单元 的 价值 得 到 了 最 大 化 的 凸 
显 ， 而 数据 间 价 值 的 激活 还 需要 对 其 进行 进一步 的 关联 识别 。 关 联 可 
以 分 为 简单 关联 、 时 序 关 联 、 因 采 天 联 。 天 联 分 析 的 目的 是 找 出 数据 
之 间 隐 藏 的 天 联网。 有 时 并 不 知道 数据 库 中 数据 的 关联 关系 ， 即 使 知 
道 也 是 不 确定 的 ， 关 联 分 析 束 是 要 发 现 数据 中 项 集 之 间 存 在 的 关联 天 
系 或 相关 关系 ， 因 此 关联 分 析 生 成 的 规则 这 有 可 信和 度 ， 以 可 信 度 摘 述 
这 种 关系 的 确定 程度 。 数 据 单 元 的 关联 程度 用 关联 度 来 表示 。 关 联 度 
征 指 对 数据 之 间 关 联 关 系 通过 相应 的 算法 进行 计算 得 出 的 值 进行 衡 
量 ， 得 出 的 值 越 接近 1， 说 明 关 联 度 越 高 。 对 于 主体 表象 相似 但 实质 不 
同 的 数据 关联 程度 的 判断 有 以 下 两 种 方法 。 


一 征 属 性 关联 度 度 量 方法 。 目 前 出 现 了 许多 准确 而 高 效 的 相似 度 
计算 方法 ， 这 些 方法 又 可 以 分 为 基于 字符 的 方法 、 基 于 标记 的 方法 、 
基于 发 音 的 方法 等 。 根 据 每 个 主体 表象 的 属性 ， 假 设 存在 一 个 基本 的 
关联 度 度 量 函 数 ， 其 输入 为 两 个 表象 的 属性 值 ， 和 输出 为 一 个 介 于 0~1 之 
间 的 值 以 表示 其 关联 度 ， 关 联 度 值 越 高 表示 两 者 越 相似 。 根 据 不 同 的 
属性 值 类 型 ， 可 以 选择 相应 的 关联 度 度量 方法 。 然 后 ， 对 于 不 同 的 属 
性 可 以 根据 先 验 知识 为 其 赋予 一 定 的 权 值 ， 从 而 通过 计算 各 属性 相似 
度 值 的 加 权 平 均 得 到 最 终 的 主体 表象 关联 度 。 


二 是 关系 关 联 度 度量 方法 。 在 该 方法 应 用 的 场景 中 ， 主 体 表象 之 
间 存 在 紧密 的 联系 。 比 如 ， 在 文献 领域 ， 有 相同 研究 兴趣 的 学 者 之 间 
可 能 存在 合作 关系 ; 在 社会 关系 网 中 ， 人 们 总 是 与 志趣 相投 的 朋友 区 
从 长 密 。 这 种 主体 表象 之 间 的 同 现 关 系 ， 可 以 通过 观察 和 统计 得 到 ， 
而 主体 表象 之 间 的 紧密 联系 则 暗示 了 团体 的 存在 ， 这 些 信 息 有 助 于 我 
们 判断 主体 表象 的 共 指 关系 。 比 如 ， 当 两 个 作者 表象 具有 较 高 的 属性 
时 ， 如 末 他 们 又 同 处 一 个 联系 紧密 的 团体 中 ， 则 我 们 基本 可 以 判断 这 
两 个 作者 古 同 一 个 作者 。 因此， 通过 度量 潜在 团体 的 连接 紧密 程度 ， 
有 助 于 主体 统一 ， 这 里 将 这 种 紧密 程度 作为 主体 表象 关系 关联 度 的 度 
量 标准 。 


关联 识别 在 现实 生活 中 的 应 用 十 分 广泛 ， 各 个 行业 、 各 个 领域 都 
可 以 运用 激活 数据 学 中 的 关联 识别 挖掘 出 多 回 的 数据 价值 ， 从 而 做 出 
更 符合 社会 发 展 规律 、 推 动 社会 进步 的 决策 。 以 我 们 熟悉 的 银行 业 的 
客户 管理 为 例 ， 在 获取 客户 阶段 ， 整 合 客户 的 多 方 数 据 集成 相应 的 用 
户 数据 库 ， 通 过 探索 性 的 特征 识别 方法 ， 找 出 客户 数据 库 中 的 有 效 特 
征 ， 再 分 析 、 预 测 和 优化 客户 的 服务 收入 、 风 险 、 成 本 等 相关 特征 的 
关联 ， 找 到 新 的 可 显 利 的 目标 客户 。 在 客户 保留 阶段 ， 分 析 多 维 、 海 
量 的 用 户 数据 ， 发 现 流失 客户 的 特征 后 ， 银 行 可 以 在 具有 相似 特征 的 
客 己 未 流失 之 前 ,采取 和 额外 增值 服务 、 特 殊 待遇 和 激励 忠诚 度 等 措施 
保留 客户 。 通 过 特征 识别 ， 可 以 预 判 哪些 客户 将 停止 使 用 银行 的 信用 
 ， 转 用 竞争 对 手 的 卡 ， 银 行进 而 采取 茶 些 措施 维持 这 些 客户 的 信 
任 。 等 征 识 别 和 关联 分 析 可 以 对 大 量 的 客户 和 质料 进行 分 析 ， 建 立 数据 
模型 ， 确 定 客 户 的 交易 习惯 、 交 易 额度 和 交易 频率 ， 分 析 客 户 对 某 个 
产品 的 忠诚 度 、 持 久 性 等 。 银 行 可 以 据 此 为 他 们 提供 个 性 化 的 服务 ， 
以 增强 用 户 秋 性 ， 优 化 银行 客户 管理 模式 ， 促 进 银 行业 快速 而 稳定 地 
发 展 。 


激活 数据 学 中 的 关联 识别 是 一 种 路 界 、 高 阶 的 关联 ， 它 所 处 理 的 
数据 集 突 破 了 领域 、 维 度 的 界限 ， 形 成 了 更 有 深度 、 更 具 内 宰 的 分 析 


数据 集 ， 充 分 挖掘 了 数据 的 显 性 价值 和 隐 性 价值 ， 为 辅助 决策 提供 了 
更 为 精准 的 信息 。 


(三 ) 融合 重 构 


融合 重 构 征 激活 数据 学 中 关联 融合 的 最 后 一 个 步 又， 十 最 大 限度 
地 发 挥 激发 数据 集 价值 的 关键 一 步 。 每 种 数据 来 源 都 有 一 定 的 局 限 性 
和 片面 性 ， 事 物 的 本 质 和 规律 往往 隐藏 在 各 种 原始 数据 的 相互 关联 之 
中 ， 只 有 融合 各 种 来 源 的 原始 数据 才能 反映 事物 的 全 够 ， 而 借助 知识 
计算 可 以 将 碎片 化 的 多 源 数据 整合 成 反映 事物 全 貌 的 完整 数据 ， 从 而 
提高 数据 挖掘 的 次 度 。 激 活 数 据 学 中 的 融合 重 构 即 建立 数据 间 、 信 息 
间 、 知 识 睛 段 间 多 维度 、 多 粒度 的 关联 关系 ， 实 现 更 多 层面 的 知识 区 
互 ， 从 而 聚敛 出 数据 调 中 一 个 个 维系 我 们 社会 的 “水 波纹 ”。 它 突破 了 
常规 的 数据 融合 界限 ， 实 现 了 跨 时 间 、 跨 领域 、 跨 空间 的 数据 关联 融 
合 ， 为 深度 挖 据 数 据 价值 、 最 大 化 数据 使 用 效率 提供 了 可 能 和 方法 。 


大 数据 时 代 丰 富 的 数据 为 人 们 提供 了 更 大 的 利用 价值 ， 但 是 数据 
的 海量 产生 和 新 的 特征 也 使 人 们 面临 的 问题 空前 复杂 一 一 制 寞 的 多 源 
异 构 数 据 。 目 前 需要 处 理 的 数据 从 来 源 角度 看 是 多 源 异 构 的 ， 而 且 这 
些 数 据 被 物理 地 存放 在 不 同 的 系统 中 ， 制 窑 的 多 源 异 构 数 据 形 成 了 各 
种 数据 孤岛 ， 给 大 数据 分 析 处 理 带 来 了 非常 大 的 挑战 ， 需 要 被 整合 到 
统一 的 系统 中 。 首 先 ， 旦 数据 规模 与 数据 价值 之 间 的 矛盾 。 数 据 越 来 
越 丰 晤 ， 提 供 了 更 多 有 价值 的 信息 ， 但 数据 的 规模 也 越 来 越 大 ， 对 已 
有 的 数据 存储 和 处 理 方法 提出 了 挑战 ， 需 要 控制 融合 的 规模 。 其 次 ， 
征 实体 和 关系 的 动态 演化 。 数 据 是 动态 变化 的 ， 实 体 和 关系 也 会 随时 
间 不 断 演化 ， 这 就 提高 了 实体 和 关系 的 判别 难度 ， 容 易 造 成 数据 不 一 
致 。 最 后 ， 是 知识 的 隐 仿 性。 数据 除了 显 式 知识 还 有 隐 式 知识 ， 隐 式 
知识 比 显 式 知识 更 重要 。 比 如 生物 领域 ， 鱼 类 中 的 护 食 者 在 食物 语 集 


时 运动 轨迹 呈 布 衣 运 动 ， 这 种 隐 含 的 关系 对 知识 的 理解 和 数据 的 融合 
都 有 很 大 帮助 。 


激活 数据 学 中 的 融合 重 构 是 解决 上 述 困境 的 有 效 方法 ， 是 最 大 限 
度 地 发 挥 大 数据 价值 的 一 种 手段 ， 推 动人 类 对 世界 的 探索 和 认识 同 痢 
的 深度 与 广度 拓展 ， 它 需要 跨度 更 大 、 层 次 更 深 和 综合 性 更 强 的 研究 
方法 。 传 统 的 数据 融合 方法 处 理 的 对 象 是 来 源 相 同 、 结 构 类 似 、 维 度 
单一 的 数据 单元 ， 但 在 人 工 知 能 时 代 ， 我 们 面 对 的 是 多 源 、 寞 构 、 海 
量 、 多 维 的 数据 单元 ， 传 统 的 流水 线 式 融合 模式 已 经 不 再 能 满足 现 有 
融合 需求 。 激 活 数 据 学 中 的 数据 融合 用 动态 的 方式 统一 不 同 的 数据 
源 ， 将 数据 转化 为 知识 资源 ， 弥 补 了 传统 数据 融合 方法 的 不 足 。 根 据 
融合 需求 ， 数 据 融 合 的 实现 主要 分 为 以 下 几 个 步骤 : 实体 统 一 ， 提 高 
融合 效率 ;识别 相同 实体 ， 链 接头 联 实体 ; 疆 别 真 伪 ， 合 并 冲突 数 
据 ， 并 将 处 理 结果 反馈 给 实体 识别 阶段 ， 拓 高 识别 效率 ;对 实体 识别 
和 冲突 解决 过 程 溯源 ， 跟 踪 数 据 的 演化 (如 图 4-8 所 示 ) 。 


重点 统一 演 
化 引起 的 不 实体 统一 


实体 识别 


确定 性 合并 和 
动态 演化 


退 浏 融合 结果 
的 数据 来 源 及 数据 济源 
演化 过 程 


图 4-8 数据 融合 重 构 


实体 统一 。 实 体 统一 是 数据 融合 的 辅助 步 又， 用 于 提高 融合 效 
率 ， 重 点 统一 演化 引起 的 不 一 致 性 。 实 体 统一 包括 模式 统一 和 本 体 统 
一 两 个 部 分 。 模 式 统一 主要 解决 两 个 模式 元 聚 之 间 的 不 一 致 问题 ， 利 
用 属性 名 称 、 类 型 、 值 的 相似 性 及 属性 之 间 的 邻接 关系 寻找 源 模式 与 
中 介 模 式 的 对 应 关系。 本 体 是 针对 特定 领域 中 的 概念 而 言 的 ， 用 于 弥 
合 词 汇 异 构 性 和 语义 此 义 的 间 际 ， 本 体 统一 主要 解决 本 体 不 一 致癌 
题 ， 需 要 识别 本 体 演化 。 本 体 演 化 分 为 原子 变化 、 寓 合 变 化 和 复杂 变 
人 


实体 识别 。 实 体 识别 是 数据 融合 的 基础 ， 大 数据 环境 中 的 实体 
识别 与 传统 实体 识别 的 区 别 在 于 : 实体 之 间 的 语义 关联 性 较 强 ， 并 且 
存在 演化 性 。 实 体 的 属性 特征 及 所 在 的 语 境 信息 、 冲 突 实体 的 解决 结 
果 和 共 指 识别 结果 都 可 能 对 实体 识别 产生 影响 ， 所 以 ， 识 别 实体 应 该 
苹 实 体 识别 、 冲 突 解决 、 共 指 识别 三 者 迄 代 优 化 、 逐 步 求 精 的 过 程 。 
实体 识别 主要 是 识别 相似 实体 和 消除 实体 收 义 ， 相 似 指 多 个 命名 实体 
表象 可 对 应 一 个 真实 实体 (或 称 概念 ) ， 歧 义 指 一 个 实体 表象 可 对 应 
多 个 真实 实体 。 根 据 数据 类 型 的 不 同 ， 实 体 识 别 方法 分 为 面 癌 非 结构 
化 文本 的 命名 实体 识别 与 消 歧 、 面 向 结构 化 数据 的 记录 链接 ， 以 及 两 
种 数据 类 型 之 间 的 复杂 数据 实体 关联 方法 。 


冲突 解决 。 冲 突 解 决 是 数据 融合 的 必要 条 件 ， 它 的 第 一 要 务 是 
消 歧 。 大 数据 的 真实 性 和 演化 性 是 引发 冲突 的 导火线 ， 如 数据 本 身 的 
新 鲜 度 和 页 献 给 特定 查询 的 价值 量 等 ， 引 发 了 新 鲜 度 和 价值 量 不 同 的 
多 真 值 问题 ， 需 要 评估 信息 质量 ， 合 并 不 确定 性 信息 。 此 外 ， 知 识 融 
合 中 推演 出 的 关系 也 可 能 对 其 起 到 启发 作用 ， 所 以 要 将 这 种 新 知识 动 
仿 地 引入 冲突 解决 过 程 ， 并 保持 这 种 知识 的 演化 。 冲 突 解决 的 步 又 ， 
即 真 伪 甄 别 、 不 确定 性 合并 和 动态 演化 。 冲 突 分 为 模式 冲突 、 标 示 符 
冲突 和 数据 冲突 ， 其 中 模式 冲突 由 数据 源 的 模式 异 构 引起 ， 比 如 属性 
名 、 语 义 等 不 同 的 情况 ， 标 示 符 冲突 主要 指 异 名 同 义 现象 ， 数 据 冲突 
主要 指 同一 属性 具有 多 种 不 同 的 值 。 冲 突 的 解决 一 般 症 在 实体 或 属性 
级 别 ， 采 用 识别 函数 进行 的 。 


数据 溯源 。 数 据 溯源 是 传统 数据 融合 不 具备 的 ， 用 于 建立 数据 
融合 的 可 回溯 机 制 ， 追 漳 融 合 结果 的 数据 来 源 及 演化 过 程 ， 及 时 发 现 
和 更 正 错误 。 它 的 关键 是 对 数据 起 源 的 表示 及 数据 演化 中 间 过 程 的 跟 
踪 。 其 中 ， 中 间 过 程 包括 实体 识别 和 冲突 解决 过 程 ， 所 以 ， 需 要 建立 
实体 识别 渊源 机 制 ， 用 于 跟 蹊 融合 结果 是 由 哪些 待 统一 实体 产生 的 ; 
建立 冲突 解决 溯源 机 制 ， 用 于 处 理 融 合 结果 元 组 中 的 每 个 值 来 自 哪 些 
记录 的 哪个 属性 值 及 通过 何 种 冲突 解决 方法 得 来 。 轩 


融合 是 一 个 将 数据 拆散 重组 的 过 程 ， 其 具体 价值 体现 在 数据 重 构 
上 。《 块 数据 2.0》 提 出 了 全 恩 化 重 构 的 概念 ， 指 对 数据 元 进行 多 维 
度 、 多 方位 、 多 类 型 的 重组 。 在 对 数据 进行 融合 的 基础 上 ， 全 有 奶 化 重 
构 的 基本 运行 原理 如 下 : 数据 经 过 关联 融合 之 后 形成 一 个 数据 集 ， 数 
据 处 理 墨盒 根据 指令 需求 ， 挑 选 出 数据 集中 具有 需求 特征 的 数据 形成 
于 集 ， 进 而 对 子 集 里 的 数据 进行 资源 重组 、 价 值 重 构 ， 如 此 循环 往 
复 ， 直 至 数据 使 用 价值 被 最 大 限度 地 发 挥 出 来 。 


从 内 在 层面 看 ， 数 据 重 构 的 过 程 就 古 不 断 化 解数 据 冲 突 、 传 递 数 
据 价 值 、 促 进 数 据 共 识 、 实 现 数 据 价值 最 大 化 的 过 程 。 价 值 重 构 可 以 
通过 数据 融合 、 数 据 互 补 、 存 异 求 同 、 综 合 创新 等 路 人 径 实 现 。 数 据 融 
合 即 多 源 数据 经 过 特定 通用 规则 转换 为 可 以 彼此 交互 的 数据 ， 破 除数 
据 壁 爸 ， 在 此 基础 上 进行 数据 价值 重 构 ; 数据 互补 指 将 关联 识别 后 的 
数据 通过 维度 互补 、 属 性 互补 等 ， 最 大 限度 地 补充 完善 数据 信息 ， 使 
其 数据 特征 充分 显现 ， 进 而 对 其 进行 数据 重 构 ; 存 异 求 同 指 保持 数据 
集中 的 数据 多 样 性 ， 通 过 对 多 样 数 据 进 行 价值 重 构 ， 找 到 其 平衡 点 ， 
实现 多 源 数 据 内 部 的 动态 平衡 ; 绿 合 创新 指 在 上 述 三 种 方式 以 外 ， 对 
数据 价值 重 构 的 全 过 程 进行 突破 创新 ， 例 如 构建 全 球 统一 的 数据 结构 
体系 ， 破 解数 据 困境 ， 实 现任 意 接 口 数据 的 目 由 交互 ， 降 低 数 据 处 理 
成 本 ， 实 现 由 素 托 最 优 。 


众所周知 ， 公 共 安 全 领域 的 数据 数量 庞大 且 多 维 ， 单 一 的 数据 单 
元 并 不 能 产生 价值 ， 要 激活 数据 价值 ， 则 需要 对 数据 进行 融合 重 构 ， 
包括 结构 化 数据 和 非 结 构 化 数据 。 其 中 ， 结 构 化 数据 包括 人 员 信 息 
(如 人 员 户 籍 库 、 重 点 人 员 库 等 ) 、 人 员 行 为 轨迹 数据 (如 飞机 、 火 
车 出 行 数据 等 ) 、 车 辆 信息 〈《 如 车 辆 购买 信息 、 违 章 信息 等 ) 、 电 信 
数据 (如 通话 记录 ) 等 ， 非 结构 化 数据 包括 网 页 、 卡 口 图 片 、 重 点 区 
域 的 视频 监控 孙 像 等 。 公 共 安 全 领域 数据 的 主要 应 用 场景 是 为 公安 办 
案 提 供 线索 。 这 种 数据 比较 复杂 ， 规 模 较 大 ， 如 中 国 某 省 会 城市 一 小 
部 分 数据 构建 成 图 ， 其 顶点 的 数量 和 边 的 数量 分 别 达 到 了 十 亿 和 百 亿 


的 规模 。 对 其 进行 融合 重 构 采 取 的 方案 是 基于 超大 规模 复杂 关联 数据 
的 管理 理论 建立 超大 规模 的 实体 关联 。 首 先 对 数据 进行 实体 统一 ， 把 
物理 上 相互 隔离 的 多 源 异 构 数 据 通过 数据 治理 整合 到 同一 数据 乎 台 ， 
保证 数据 一 致 性 ， 其 次 对 数据 进行 实体 识别 ， 这 个 过 程 需要 目 动 构建 
实体 之 则 的 显 式 关系 和 隐 式 关系， 并 存储 在 数据 库 ， 隐 式 关 系 的 构建 
借助 规则 或 机 絮 学 习 ， 最 后 是 冲突 解决 ， 经 过 冲突 解决 的 数据 彼此 间 
实现 了 互联 互通 ， 为 融合 重 构 葛 定 了 基础 。 融 合 之 后 的 数据 再 由 系统 
提供 的 强大 的 可 视 化 交互 工具 分 析 ， 帮 助 用 户 在 超大 规模 图 上 做 各 种 
分 析 、 关 系 推演 和 比 对 ， 最 终 实 现 了 数据 价值 的 深度 呈现 与 运用 。 


激活 数据 学 强调 的 融合 重 构 破除 了 数据 壁 人 至 ， 消 除了 数据 孤岛 ， 
实现 了 多 源 、 异 构 、 海 量 、 多 维 数 据 之 间 的 关联 融合 分 析 ， 进 而 对 其 
进行 价值 重 构 ， 真 正 意义 上 凸显 了 大 数据 作为 第 四 种 生产 要 又 的 现实 
意义 ， 必 将 推动 社会 的 发 展 和 进步 。 


1. 流 形 是 局 部 具有 欧 几 里 得 空间 性 质 的 空间 ， 在 数学 中 用 于 描述 几何 形体 。 物 理 上 ， 

经 典 力学 的 相 空间 和 构造 广义 相对 论 的 时 空 模型 的 四 维 伪 黎 曼 流 形 都 是 流 形 的 实例 。 

2. 欧 几 里 得 空间 ， 是 指 四 维 或 N 维 的 理论 无 穷 大 的 空间 。 

3. 毕 达 天 ， 印 长 波 ， 张 蛤 .数据 降 维 技术 研究 现状 及 其 进展 [J] .情报 理论 与 实践 ， 
2013 (2) : 125- 127. 

4. 周 英 ， 卓 金 武 ， 卞 月 青 .大 数据 挖掘 : 系统 方法 与 实例 分 析 [Mj] .北京 : 机 械 工业 
出 版 社 ，2016: 9. 
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= 败 活 : 鲁能 决 保 


自 激 活 是 激活 数据 学 研究 的 核心 环节 ， 是 数据 价值 释放 的 临界 
点 。 在 前 期 数据 搜索 和 关联 融合 的 数据 输入 下 ， 数 据 仍 然 是 一 个 洪 在 
价值 的 状态 ， 如 何 发 挥 其 价值 ， 将 其 变 成 相应 的 数据 知识 进行 目 主 决 
策 输 出 征 目 激活 目 主 决策 过 程 中 ， 甚 至 整个 激活 数据 学 系统 中 最 关键 
之 处 。 数 据 搜 索 和 关联 融合 为 目 激活 提供 了 数据 资源 基础 ， 在 已 有 的 
数据 基础 上 上， 选择 有 助 于 目标 任务 执行 的 数据 ， 让 机 大 得 以 目 主 学 习 
优化 ， 从 而 输出 个 体 决 策 。 可 以 说 ， 目 激活 是 所 有 智能 决策 系统 的 关 
链 环 入 。 


目 主 决策 的 输出 依赖 学 习 后 所 获得 的 数据 知识 在 外 界 信 息 的 刺激 
下 目 主 对 信息 处 理 进行 决策 输出 的 过 程 。 无 论 是 学 习 还 是 决策 ， 都 离 
不 开 对 人 脑 神经 网 络 的 研究 ， 因 此 ， 本 章 在 对 人 脑 神经 网 络 的 构成 及 
机 需 学 习 理 论 进行 研究 的 基础 上 ， 探 讨 目 激活 的 决策 输出 过 程 。 在 当 
今 数 据 脱 胀 的 环境 中 ， 目 激活 将 对 数据 运用 进行 更 优化 、 更 有 效 的 所 
升 。 科 技 在 发 展 ， 技 术 在 进步 ， 目 激活 阶段 的 运行 过 程 会 不 断 更 新 ， 
而 随 者 人 们 对 人 脑 的 了 解 越 来 越 深 ， 目 激活 的 输出 将 会 实现 更 大 的 价 
值 ， 使 人 工 智能 更 “ 增 智 ”。 


第 一 节 
脑 认 知 与 类 脑 计算 


(一 ) 神经 元 与 神经 网 络 


在 我 们 已 知 的 宇宙 万 物 中 ， 人 脑 是 最 复杂 的 物体 之 一 。 这 种 复杂 
性 使 人 类 无 法 在 现实 中 使 用 简单 明了 的 计算 模型 来 完美 诠释 人 脑 的 工 
作 原 理 。 束 目前 的 研究 成 果 来 看 ， 科 学 家 只 是 在 客观 直接 地 观察 人 脑 
和 模拟 人 脑 ， 人 脑 纷繁 复杂 的 工作 机 理 还 每 进一步 深度 挖 据 。 人 脑 拥 
有 数 十 亿 个 相互 作用 的 神经 元 ， 这 种 相互 作用 每 时 每 刻 都 在 发 生 改 
变 ， 因 此 和 弄 清 由 分 布 在 许多 脑 区 的 大 量 神 经 元 发 出 的 信号 及 其 信号 之 
间 的 连接 交流 情况 ， 无 疑 是 神经 科学 研究 中 要 面临 的 巨大 挑战 。 


基于 人 脑 的 复杂 性 ， 人 脑 的 工作 原理 是 什么 ”人 脑 的 思维 过 程 是 
怎样 的 ?这些 问 题 成 为 当代 最 具 挑 战 性 的 科学 研究 之 一 。 闭 名 神经 生 
理学 家 巴 洛 曾 提出 : “思维 是 由 神经 元 产生 的 ， 神 经 元 的 活动 就 是 思 
维 。* 忆 人 脑 拥 有 许多 不 同 的 细胞 组 织 ， 其 中 对 人 的 感知 、 思 维 、 情 
感 、 意 识 等 重要 的 脑 部 活动 起 决定 性 作用 的 细胞 组 织 当 属 神经 元 ， 人 
脑 神经 元 是 组 成 人 脑 最 基本 的 单元 ， 绝 大 多 数 脑 科学 家 都 认为 神经 元 
的 活动 及 神经 元 群 的 连接 模式 决定 人 类 安 观 的 大 脑 活 动 。 因 而 ， 要 了 
解 这 个 复杂 大 脑 的 运行 机 理 ， 了 解 人 类 的 思维 过 程 ， 最 恰当 的 方式 应 
该 是 研究 神经 元 之 间 相 互 作用 背后 的 生理 原则 。 人 脑 的 神经 元 大 约 有 
2.5x100 个 ， 其 中 单个 神经 元 是 一 个 完整 的 细胞 组 织 ， 该 细胞 可 以 接 
收 和 发 射 脉 冲 信号 ， 接 收 脉 钟 信号 的 称 为 树 突 ， 而 发 射 脉冲 信号 的 称 
为 轴 突 。 其 中 部 的 细胞 体能 对 树 突 接 收 到 的 信息 进行 加 工 处 理 ， 由 轴 
突 将 处 理 后 的 脉冲 信和 号 输出 传递 给 其 他 神经 元 。 连 接 一 个 神经 元 的 轴 


突 与 男 一 个 神经 元 的 树 突 之 间 的 部 分 称 为 突 触 ， 它 决定 了 神经 元 间 连 
接 的 强度 与 性 质 ， 是 神经 元 之 间 脉 冲 信 和 号 兴奋 或 抑制 状态 的 关键 市 
上 护 。 这 种 兴 否 或 抑制 状态 可 解释 为 神经 元 在 突 触 的 连接 点 接收 脉冲 信 
号 时 ， 脉 冲 信 号 在 突 触 上 的 接收 侧 沿 树 突 被 传 入 细胞 体 的 过 程 中 ， 有 
的 信号 起 刺激 作用 ， 有 的 信号 起 抑制 作用 。 当 细胞 体 中 接收 信和 号 的 归 
加 作用 超过 一 个 国 值 时 ， 细 胞 体 被 激发 ， 这 时 和 它 开始 加 工 运 作 ， 最 终 
将 处 理 后 的 信和 号 通过 轴 突 传 癌 其 他 神经 元 。 如 此 看 来 ， 一 个 神经 元 在 
收发 信号 的 过 程 中 可 以 看 作 一 个 单元 个 体 ， 这 个 单元 个 体 对 信号 的 处 
理 呈 现 出 系统 性 和 完整 性 。 当 下 的 仿生 学 派 认 为 认 知 的 基本 元 素 束 古 
神经 元 ， 认 知 的 过 程 是 大 量 单元 个 体 神经 元 之 间 相 互 连 接 的 过 程 ， 树 
突 与 轴 突 一 一 对 授 ， 把 众多 神经 元 连 成 一 个 神经 网 络 。 


神经 元 有 多 项 功能 ， 按 其 最 基础 、 最 重要 的 功能 归纳 起 来 分 为 二 
种 类 型 : 第 一 种 类 型 是 感觉 神经 元 ， 又 称 传 入 神经 元 ， 主 要 用 于 接收 
外 来 信号 的 刺激 ， 将 这 种 刺激 信号 传 至 人 的 兰 人 散 和 大 脑 ， 第 二 种 类 型 
征 运 动 神 经 元 ， 又 称 传 出 神经 元 ， 主 要 用 于 大 脑 给 出 的 指令 所 引发 的 
肌肉 活动 ， 或 产生 的 对 筑 行 为 ， 第 三 种 类 型 是 联络 神经 元 ， 叉 称 中 间 
神经 元 ， 它 介 于 上 述 两 类 神经 元 之 间 ， 起 着 神经 元 之 间 机 能 联系 的 媒 
介 作 用 ， 将 上 述 两 类 神经 元 连接 起 来 组 成 一 个 复杂 的 神经 网 络 。 单 一 
的 神经 元 是 大 脑 的 基本 解剖 结构， 也 是 信息 处 理 的 单元 ， 但 它 无 法 产 
生 行为 ， 最 终 也 无 法 产生 思想 ， 因 此 ， 人 脑 神经 系统 真正 能 发 挥 其 功 
能 的 是 由 神经 元 组 成 的 神经 群体 或 神经 网 络 。 例 如 ， 对 于 火 的 认 知 ， 
神经 元 是 这 样 工作 的 : 首先， 有 眼睛 捕捉 到 相应 的 火 的 信号 后 将 信号 传 
递 给 视神经 ， 即 感觉 神经 元 ， 视 神经 作为 一 种 神经 元 ， 接 收 到 的 是 外 
界 刺 激 ， 这 个 刺激 束 旦 来 目 目 然 界 的 反射 和 散射 的 光线 ， 由 视神经 传 
递 给 脑 神经 ， 即 联络 神经 元 ， 多 次 看 到 之 后 ， 其 中 一 个 神经 元 将 火 的 
形象 存储 下 来 。 其 次 ， 皮 肤 (感觉 神经 元 感觉 到 热 ， 将 这 个 信号 传 
递 给 脑 神经 ， 并 且 和 刚才 的 视觉 形 象 建立 了 联系 ; 当 手 离 火 太 近 感到 
很 热 时 ， 脑 神经 就 会 发 出 指令 ， 人 就 会 将 手 缩 回来 《运动 神经 元 ) 。 


由 此 可 以 看 出 ， 负 责 产 生 某 种 行为 所 需 信 息 的 不 是 单一 的 神经 元 ， 而 
征 多 个 神经 元 集群 所 构成 的 神经 网 络 。 


人 脑 神 经 元 之 间 相 互 连 接 的 工作 机 理 是 一 个 信息 加 工 处 理 的 过 
程 ， 人 脑 各 个 脑 区 形态 功能 间 的 相互 配合 也 可 以 看 作 一 种 信息 的 加 工 
处 理 ， 这 是 人 有 别 于 其 他 生物 发 挥 其 聪明 才智 的 具体 体现 。 从 宏观 的 
角度 来 看 ， 大 脑 具 有 联想 、 比 较 、 判 断 、 抽 象 、 概括 、 想 象 、 做梦、 
语言 、 创 造 发 明 、 解 决 问题 等 功能 ， 这 些 功能 的 具体 体现 是 人 脑 中 复 
杂 神 经 网 络 对 相应 信号 进行 加 工 处 理 的 结果 。 从 微观 的 角度 来 看 ， 可 
以 把 这 个 过 程 概括 为 一 种 “刺激 一 反应 ”的 人 脑 信息 加 工 模式 。 首 先 ， 
外 界 信息 通过 各 种 感觉 器 官 转化 为 神经 冲动 ， 神 经 冲动 传 到 大 脑 皮 质 
转化 为 神经 联系 ， 这 种 神经 联系 保持 信息 由 外 界 输入 大 脑 的 状态 。 其 
次 ， 大 脑 中 进行 加 工 处 理 的 神经 元 在 接收 到 传 来 的 神经 冲动 后 ， 变 得 
兴奋 或 抑制 ， 根 据 输入 信号 的 强 弱 做 出 对 应 的 反应 。 最 后 ， 在 相应 的 
知识 和 信息 的 扩充 下 ， 大 量 的 神经 元 组 织 在 一 起 后 ， 大 脑 才 表现 出 识 
别 、 了 联想、 比较、 判断、 推理、 抽象 、 概括 等 复杂 的 功能 ， 才 能 体现 
出 大 脑 对 外 界 的 刺激 (知觉 做 出 对 应 的 反应 (动作 ) 。 因 此 ， 根 据 
这 个 信息 加 工 处 理 模型 原理 ， 把 人 脑 看 作 静 态 记 忆 和 动态 控制 策略 之 
上 的 刺激 一 反 应 装置 ， 便 可 建立 人 脑 模型 ， 完 成 复杂 的 设计 、 创 新 
活动 。 这 就 是 构造 人 脑 模 型 的 基础 。 包 


(二 ) 从 学 习 到 决策 


人 脑 具 有 复杂 性 和 动态 性 ， 在 进化 发 展 的 过 程 中 ， 其 结构 和 功能 
逐渐 成 熟 。 从 感知 到 学 习 ， 从 知识 的 获取 到 行为 的 决策 ， 大 脑 受 学 
习 、 训 练 及 经 验 等 因素 的 影响 ， 随 着 时 间 的 推移 ， 逐 渐 完 善 大 脑 的 认 
知行 为 ， 改 变 大 脑 皮 质 结构 ， 重 组 大 脑 的 认 知 功能 。 从 宏观 层面 来 
说 ， 大 脑 认 知行 为 发 展 的 变化 也 会 体现 在 大 脑 结构 的 改变 上 ， 其 中 发 


生变 化 的 有 大 脑 的 重量 、 皮 质 厚度 、 不 同 脑 区 沟 回 面积 等 ， 从 微观 层 
面 来 说 ， 大 脑 认 知行 为 发 展 将 会 增加 树 突 的 长 度 ， 改 变 树 突 藉 的 密 
度 、 神 经 元 数量 及 大 脑 皮质 新 陈 代谢 等 。 在 重组 大 脑 的 认 知 功能 

认 知 功能 的 认 知 内 容 将 更 加 丰富 。 人 的 认 知 是 人 们 获取 知识 或 学 习 过 
程 的 心理 活动 ， 其 中 包括 意识 、 判 断 等 。 可 以 说 ， 认 知 的 基本 功能 是 
知识 的 学 习 与 记忆 。 大脑 认 知行 为 的 发 展 将 直接 反映 在 人 所 获取 的 知 
识 信息 上 ， 也 将 体现 在 人 类 的 记忆 状态 中 ， 进 而 反映 在 人 的 行为 决策 
上 ， 同 时 这 些 决策 后 的 结果 体验 也 将 影响 人 们 进一步 的 学 习 和 记忆 ， 
影响 下 一 次 决策 行为 ， 如 此 人 的 认 知行 为 呈现 循环 递 进 的 态势 ， 不 断 
丰富 ， 不 断 增 智 。 因 此 ， 我 们 在 研究 大 脑 认 知行 为 时 ， 将 重点 关注 人 
是 如 何 学 习 的 ， 人 又 是 如 何 做 出 决策 的 。 


人 所 具有 的 技能 几乎 都 不 是 与 生 俱 来 的 ， 哪 介 是 简单 的 识别 和 认 
知 ， 连 抓 、 拿 、 放 、 举 等 商 单 动作 都 是 婴儿 后 天 学 习 的 成 果 。 一 个 人 
从 出 生 开始 并 不 会 由 基因 来 提供 各 种 技能 信息 ， 不 会 通过 遗传 进行 编 
程 传递 ， 因 此 ， 人 生来 只 拥有 能 够 学 习 各 种 技能 的 物质 载体 ， 而 如 何 
将 这 些 载体 串联 起 来 发 挥 其 学 习 功 用 ， 束 需要 人 脑 这 个 总 指挥 家 的 精 
心 掌控 和 管理 。 从 生理 学 、 脑 神经 学 、 认 知心 理学 的 角度 来 看 ， 人 类 
每 次 学 习 的 过 程 都 可 以 解释 为 大 脑 内 一 系列 神经 纤维 传递 脉冲 信和 号 的 
组 合 ， 从 接触 一 个 新 的 知识 到 学 习 并 理解 至 少 需 要 经 历 以 下 4 个 环节 。 


第 一 环节 ， 通 过 五 官 初 识 信息 。 我 们 学 习 的 任何 知识 都 是 以 
言 息 的 形式 呈现 的 ， 每 个 新 信息 出 现 后 都 需要 通过 五 类 感官 获取 。 这 
五 类 感官 是 人 的 视觉 器 官 、 听觉 器 官 、 味 觉 器 官 、 嗅 觉 器 官 和 触觉 器 
官 ， 被 称 为 人 的 外 部 感官 ， 对 应 的 就 是 人 的 眼 、 耳 、 口 、 自 和 遍布 全 
身 的 触觉 神经 。 通 过 这 些 身 体 的 窗口 ， 我 们 人 类 可 以 感知 世界 、 获 取 
知识 信息 。 由 于 知识 信息 的 多 元 性 ， 人 将 从 形象 、 声 音 、 味 道 、 气 
味 、 动 作 等 多 维度 去 了 解 和 学 习 。 


第 二 环节 ， 通 过 神经 系统 传递 获取 到 的 信息 。 在 我 们 的 五 类 
感冒 获取 到 外 界 的 信息 后 ， 这 些 信息 殊 会 传递 给 我 们 的 大 脑 ， 人 负责 对 
这 些 外 界 信息 进行 传递 的 十 我 们 的 神经 系统 ， 而 连接 感官 和 大 脑 皮质 
的 神经 束 将 组 成 传递 信息 的 通道 ， 集 中 分 布 在 脑 干 和 丘脑 等 部 位 。 其 
中 ， 脑 干 主要 负责 将 通过 五 类 感官 获取 的 信息 不 加 分 类 地 传 给 丘脑 ， 
而 丘脑 主要 负责 对 信息 进行 再 分 类 ， 依 据 信 息 来 源 和 类 型 的 不 同 ， 分 
别 将 不 同 来 源 的 信息 传递 给 不 同 的 皮质 ， 例 如 将 光线 信息 传递 给 视觉 
皮质 ， 将 味道 信息 传递 给 味觉 庆 质 ， 将 气味 信息 传递 给 嗅觉 皮质 ， 将 
声音 信息 传递 给 听觉 皮质 ， 将 触感 信息 传递 给 触觉 皮质 。 


第 三 环节 ， 大 脑 皮 质 过 滤 传 递 进来 的 信息 ， 经 过 比较 、 分 
析 并 形成 新 的 神经 连接 。 在 人 的 大 脑 皮质 中 有 着 对 应 处 理 外 部 五 类 
感官 信息 的 大 脑 皮 质 ， 即 视觉 皮质 、 听 觉 皮质 、 味 觉 皮质 、 嗅 觉 皮质 
和 触觉 皮质 ， 它 们 被 称 作 人 脑 内 部 感官 。 内 部 感官 和 外 部 感官 的 主要 
功能 区 别 是 ， 外 部 感官 负责 从 外 部 世界 获取 信息 ， 内 部 感官 则 主要 负 
责 识别 这 些 信 息 。 在 上 一 个 环节 中 丘脑 将 外 部 感官 获取 的 信息 分 门 别 
类 地 传递 给 相应 的 大 脑 皮 质 以 后 ， 每 个 内 部 感官 开始 识别 这 些 信息 ， 
这 种 识别 过 程 的 原理 是 基于 大 脑 内 部 存储 的 原 有 的 信息 ， 大 脑 首 先 对 
存储 的 原 有 的 同类 信息 进行 检索 ， 试 图 找到 与 新 的 信息 尽 可 能 匹配 的 
相关 信息 ， 其 次 与 新 信息 进行 比较 ， 也 就 是 用 大 脑 中 原 有 的 信息 解释 
新 信息 ， 从 而 完成 对 新 信息 的 识别 ， 并 在 大 脑 中 建立 新 的 神经 连接 ， 
信息 和 知识 在 大 脑 内 部 是 以 神经 连接 的 形式 存在 的 。 值 得 注意 的 是 ， 
人 的 大 脑 利 用 自己 已 经 存储 的 信息 经 过 逻辑 推理 ， 对 新 信息 如 果 能 够 
认识 和 理解 ， 就 加 以 接纳 ， 建 立新 的 神经 连接 ， 而 不 能 被 认识 和 理解 
的 信息 则 被 过 滤 掉 了 ， 即 被 遗忘 。 


第 四 环节 ， 过 滤 后 的 新 信息 形成 感觉 及 瞬间 记忆 。 在 这 个 
环节 中 ， 一 部 分 信息 被 内 部 感官 接纳 并 通过 赋予 意义 的 方式 保留 下 
来 ， 这 些 被 赋予 意义 的 信息 形成 了 各 种 感觉 和 瞬间 记忆 。 瞬间 记 忆 的 
言 筷 经 过 一 定 条 件 的 转化 形成 工作 记忆 ， 即 大 脑 的 意识 激活 状态 。 工 


作 记 忆 的 信息 经 过 深加工 形成 有 效 学 习 的 最 终结 0 天 
脑 将 深加工 后 的 信息 结果 存储 在 大 脑 中 ， 供 以 后 应 用 的 时 候 有 效 提 
取 。 工 作 记 忆 的 信息 转换 为 长 时 记忆 ， 是 学 习 的 重要 环 方 ， 也 是 决定 
学 习 效 果 的 关键 环 节 。 工 作 记 忆 转 化 为 长 时 记忆 一 般 需 要 通过 以 下 3 种 
方式 : 一 是 不 断 重复 、 强 化 ; 二 是 对 知识 进行 精 加 工 ， 即 对 知识 进行 
分 类 与 归 类 ， 弄 请 知识 之 间 的 区 别 与 联系 ， 特 别 是 新 旧 知 识 之 间 的 天 
联 ; 三 是 对 知识 进行 迁移 与 应 用 ， 这 有 助 于 在 大 脑 中 建立 更 加 丰富 的 
神经 连接 ， 便 于 以 后 信息 的 提取 “。 人 时 ) 随 着 时 间 的 流逝 ， 当 新 关联 的 信 
息 作 为 人 的 长 时 记忆 封存 在 大 脑 中 时 ， 当 信息 出 现时 ， 对 大 脑 的 刺激 
较 大 的 将 变 成 人 类 的 深层 记忆 ， 这 些 记忆 虽然 想 不 起 来 ， 但 不 会 起 
记 ， 等 到 未 来 的 某 个 时 间 节 点 ， 人 脑 在 某 种 信息 源 的 刺激 下 再 一 次 将 
其 开封 提取 ， 为 人 脑 做 出 决策 提供 支撑 。 


人 们 在 拥有 了 学 习 能 力 之 后 ， 会 根据 学 习 后 产生 的 知识 结果 对 所 
面 对 的 事物 或 情形 做 出 相应 的 回应 ， 这 种 为 了 解决 某 种 问题 而 产生 对 
应 行动 方案 的 过 程 ， 束 是 人 脑 做 出 决策 的 过 程 。 决 策 是 人 脑 的 主要 活 
动 之 一 ， 是 人 类 的 高 级 认 知 功能 ， 它 涉及 大 量 的 信息 接收 、 传 递 、 存 
储 、 提 取 、 加 工 处 理 及 输出 等 。 目 前 ， 人 类 的 决策 行为 是 神经 经 济 学 
关注 的 核心 ， 其 研究 领域 涉及 经 济 学 、 心 理学 、 人 神经 生物 学 等 多 个 学 
科 。 从 综合 的 诸多 学 科 来 看 ， 经 济 学 试图 用 一 种 单一 的 、 人 逻辑 上 统一 
的 形式 来 整体 描述 所 有 的 决策 选择 行为 ， 心 理学 则 考察 价值 在 主观 们 
计 和 客观 倍 计 之 间 存 在 的 差异 方式 ， 并 提出 种 种 心理 模型 来 解释 观察 
到 的 决策 行为 偏好 ， 神 经 生物 学 着 眼 于 最 简单 的 可 能 存在 的 伸 经 回路 
来 解释 最 简单 的 可 测量 的 决策 行为 元 隶 。 由 此 看 来 ， 从 不 同 的 学 科 角 
度 着 手 ， 对 人 类 决策 行为 的 认 知 解释 就 不 同 。 因 此 ， 神 经 经 济 学 不 仅 
仅 旨 在 研究 大 脑 如 何 进 行 复杂 决策 ， 还 通过 借鉴 各 门 学 科 的 人 研 守成 果 
来 探索 一 种 更 加 合理 完善 的 决策 模型 。 


决策 模型 的 基本 结构 根据 时 间 和 功能 的 不 同 ， 可 粗略 地 划分 为 以 
下 4 个 阶段 : 一 是 确定 问题 ; 二 是 评 佑 目标 标准 ; 三 是 做 出 执行 目标 的 


选择 ， 并 根据 选择 完成 与 执行 有 关 的 一 系列 加 工 处 理 ， 如 选择 不 同行 
动 的 先后 顺序 、 禁 止 其 他 的 竞争 行为 及 选取 适宜 的 行动 时 间 等 ， 四 是 
做 出 决策 的 输出 ， 体 验 决策 的 结果 。 体 验 主要 源 目 预期 和 实际 结 来 之 
间 的 差异 ， 这 种 差异 对 调整 下 一 轮 决策 选项 的 赋值 具有 重要 意义 。 由 
此 可 见 ， 决 策 是 一 个 反复 的 过 程 ， 当 前 阶段 的 决策 不 仅 受 先前 阶段 的 
影响 ， 而 且 受 后 期 体验 阶段 的 影响 。 


确定 问题 。 在 大 脑 的 系统 组 织 中 ， 各 种 神经 元 信息 并 非 总 是 处 
于 和 谐 状态 ， 而 是 以 矛盾 的 形式 在 运动 的 。 当 我 们 直到 问题 时 ， 人 脑 
需要 调动 存储 在 大 脑 记忆 中 的 这 些 潜在 运动 的 知识 信息 ， 这 些 知识 信 
思 通 过 前 期 的 学 习 获 取 ， 封 存在 大 脑 中 ， 在 问题 出 现 后 ， 大 脑 需要 立 
刻 根据 所 封存 的 知识 信息 认识 和 确定 问题 。 例 如 ， 如 有 果 我 们 脑海 中 在 
前 期 学 习 过 程 中 已 保存 了 “ 火 ” 的 图 像 和 文字 信息 ， 当 我 们 看 到 火 时 ， 
大 脑 将 立刻 给 出 “ 火 * 的 信息 指示 ， 让 我 们 明白 自己 遇 到 了 火 ， 确 定 当 
前 所 直到 的 问题 。 


评估 目标 标准 。 在 问题 发 生 后 ， 我 们 将 预测 所 要 解决 问题 的 决 
策 目 标 。 决 策 的 目标 是 整个 决策 过 程 的 总 纲 ， 它 引领 着 决策 过 程 的 发 
展 ， 有 影响 其 始终 。 评 佑 目标 标准 就 古 大 脑 在 分 析 征 候 的 基础 上 分 清 需 
要 解决 的 问题 是 什么 ， 通 过 问题 发 生 的 主客 观 条 件 ， 根 据 解 决 问题 的 
需要 和 可 能 确定 需要 达到 什么 样 的 解决 状态 ， 如 此 形成 预期 评估 的 决 
策 标准 。 目 标 标 准 的 评估 影响 着 决策 方案 的 选择 ， 问 题 信 息 受 诸多 因 
素 影 响 ， 随 着 各 种 客观 维度 发 生变 化 ， 不 同 的 维度 可 能 使 特定 的 神经 
回路 编码 受 不 同 的 神经 化 学 系统 调节 。 因 此 ， 在 决策 目标 标准 评 佑 时 
会 考虑 到 问题 解决 的 概率 和 确定 性 、 决 策 方案 的 选项 编辑 ， 以 及 所 定 
目标 方案 的 决策 效用 和 目标 评估 的 影响 因素 。 


执行 目标 的 选择 。 通 过 评估 的 目标 标准 ， 我 们 将 先 选择 决策 行 
为 的 行动 方案 ， 再 执行 产生 的 选择 行动 。 在 选择 方案 时 ， 值 得 一 提 的 
征 ， 根 据 目标 标准 产生 的 选择 行为 方案 往往 不 止 一 种 ， 因 为 实现 目标 


的 具体 决策 不 止 一 种 ， 我 们 需要 根据 客观 环境 和 主观 条 件 在 所 提出 的 
各 种 备 选 决策 方案 中 选择 最 为 理想 的 那个 。 我 们 的 最 终 执行 方案 是 能 
考虑 到 所 有 因素 和 条 件 的 、 设 计 最 合理 的 、 价 值 最 高 的 、 能 最 好 地 实 
现 决 策 目 标的 方案 。 选择 好 最 终 方案 后 ， 我 们 将 执行 由 评估 目标 而 产 
生 的 选择 行动 。 从 认 知 角度 看 ， 该 阶段 必须 抑制 其 他 相互 竞争 的 动作 
以 实现 动作 连贯 性 、 监 控 次 级 子 目 标的 完成 、 矫 正 以 前 所 发 生 的 错 
误 、 计 划 动 作 执行 时 间 等 。 


决策 的 输出 和 体验 。 执 行 完 选择 行动 后 就 会 产生 最 终 决策 的 输 
出 结果 。 根 据 前 期 预测 的 目标 标准 产生 决策 结果 是 一 个 目 然 的 输出 过 
程 ， 然 而 在 决策 输出 后 的 结果 体验 将 在 决策 过 程 中 起 到 重要 的 作用 ， 
会 影响 大 脑 对 决策 价值 的 评 信 。 许 多 因素 影响 实际 结 来 的 体验 ， 最 主 
要 的 是 预期 与 实际 价值 的 差异 和 结果 本 号 的 效 价 。 预 期 与 实际 价值 的 
短 异 作为 一 种 学 习 信 号 ， 将 调和 随后 再 循环 的 学 习 和 决策 行动 ， 从 而 
促成 知识 的 产生 并 积累 再 生 ， 由 此 形成 一 种 循环 再 生 的 前 进发 展 态 
势 ， 也 是 人 越 来 越 聪 明 的 具体 实践 过 程 。 


(三 ) 人 脑 智 能 决策 对 机 器 学 习 的 局 示 


在 了 解 人 如 何 进 行 增 智 的 过 程 后 ， 我 们 会 考虑 如 何 将 这 些 优势 运 
用 到 机 器 服务 中 去 。 既 然 人 脑 的 思维 模型 如 此 精巧 神奇 ， 那 么 我 们 就 
需要 不 断 模 拟人 脑 ， 以 期 让 机 硕 能 像 人 一 样 思考 ， 为 人 类 提供 服务 。 
在 这 个 模拟 过 程 中 ， 我 们 清楚 地 感知 到 人 脑 在 几 千 年 的 进化 过 程 中 每 
时 每 刻 都 在 发 挥 的 可 塑性 作用 ， 这 种 可 塑性 学 习 影 响 着 神经 网 络 广 点 
之 间 的 权重 。 因 此 ， 机 器 学 习 的 不 断 升级 有 得 人们 开发 出 类 似 人 脑 层 
次 化 加 工 结构 的 深度 学 习 算法 。 


在 人 的 认 知 行为 过 程 中 ， 识 别 物体 十 最 基本 的 认 知 过 程 ， 从 人 如 
何 识别 物体 来 看 ， 面 孔 是 人 类 生活 中 常见 的 物体 ， 它 携 市 有 丰富 的 信 


轧 ， 从 复杂 的 场景 中 识别 、 检 测 面孔 及 辨别 面孔 的 个 体 信 息 等 具有 重 
要 的 意义 ， 因 此 面孔 识别 的 相关 认 知 机 制 及 面孔 加 工 的 特异 性 始终 受 
到 大 量 学 者 的 关注。 以 面孔 为 代表 的 视 党 物体 信息 经 过 视网膜 、 外 膝 
体 之 后 ， 大 致 经 过 初级 和 高 级 视觉 皮质 逐 级 的 表征 和 加 工 ， 这 一 过 程 
受到 注意 环 路 的 调节 和 控制 ， 从 而 引导 我 们 发 现任 务 需 要 我 们 提前 注 
意 的 特征 和 物体 自身 桓 目的 特征 ， 完 成 感知 、 区 分 和 识别 的 过 程 ， 先 
后 完成 判断 “是 面孔 ， 还 是 桌子 ”和 “是 我 认识 的 人 吗 ， 他 叫 什么 ， 在 哪 
儿 工 作 ” 等 过 程 ， 随 后 还 启动 了 记忆 系统 来 完成 再 认 和 回忆 (是 否认 识 
或 者 干 年 前 在 某 处 见 过 他 ) 、 语 义 判 断 (他 的 名 字 等 语义 信息 ) 、 情 
绪 加 工 (他 看 起 来 不 高 兴 ， 让 我 不 舒服 ) 等 有 关 的 高 级 加 工 。 


这 是 一 个 非常 抽象 的 加 工 模型 ， 有 助 于 解释 面孔 和 复杂 物体 的 加 
工 。 我 们 首先 可 以 看 出 信息 加 工 是 层次 化 的 ， 录 级 加 工 从 人 简单 到 复杂 
的 特征 ， 每 个 层级 都 对 视觉 信息 有 各 目的 表征 ， 提 取 从 线段 朝 癌 、 简 
单 特征 组 合 到 复杂 特征 等 不 同 的 特征 ， 感 知 、 识 别 等 认 知 加 工 也 是 伴 
随 着 每 个 层级 的 表征 进行 的 。 这 些 表 征 和 加 工 都 是 通过 多 个 层级 的 神 
经 元 群体 的 同步 活动 实现 的 。 单 个 神经 元 负责 表征 极为 简单 的 信息 ， 
但 是 通过 群体 组 合 在 一 起 束 能 表达 复 洒 的 功能 。 从 信息 科学 的 角度 
看 ， 整 个 加 工 过 程 的 实现 可 以 理解 为 复 洒 的 多 次 特征 提取 过 程 ， 提 取 
的 特征 从 简单 到 复杂 ， 多 次 组 合 ， 连 “概念 ”这 种 十 分 抽象 的 特征 也 可 
以 被 提取 。 由 此 我 们 不 难看 出 现在 机 大 视觉 领域 物体 识别 算法 的 局 限 
性 ， 也 不 难 理解 与 人 的 识别 过 程 有 类 似 之 处 的 深度 学 习 等 算法 一 定 有 
内 在 的 结构 特点 做 保证 。 


在 物体 识别 的 过 程 中 ， 前 景 和 背景 分 割 过 程 扮演 着 很 重要 的 角 
色 。 前 景 的 判断 是 人 类 经 过 亿 万 年 学 习 的 ， 进 化 出 了 对 特定 信息 敏感 
的 神经 元 ， 并 经 过 遗传 进化 ， 一 代 一 代 优 化 到 今天 。 背 景 的 分 割 和 刻 
挡 信息 的 处 理 则 十 人 类 特殊 的 表征 机 制 在 起 作用 ， 虽然 当 前 物体 不 完 
整 ， 但 十 丝 感 不 影响 我 们 利用 已 有 的 信息 对 其 进行 “ 脑 补 ”， 这 对 计算 
机 科学 家 研究 特征 补 全 机 制 来 说 具有 很 大 的 启示。 此外， 特征 提取 和 


去 噪 是 同步 完成 的 ， 即 在 对 感 兴趣 的 物体 进行 表征 的 同时 完成 了 背景 
噪声 的 去 除 。 这 里 重要 的 结构 特点 束 是 前 景 信 息 的 表征 ， 其 中 宫 插 了 
大 量 细 世 信息 的 表征 ， 以 及 注意 过 程 的 参与 ， 即 我 们 感 兴 趣 的 区 域 的 
表征 是 更 精细 的 ， 这 有 助 于 我 们 看 清楚 想 要 关注 的 人 的 面孔 ， 对 于 背 
景 信息 则 至 多 只 会 保持 大 尺度 的 轮廓 。 


与 人 的 视觉 层次 化 加 工 相 比 ， 计 算 机 视觉 的 表征 主要 来 目 信息 获 
取 初 始 阶段 光学 传感器 用 矩阵 对 两 维 的 视觉 信息 的 表征 ， 这 一 次 表征 
的 结果 几乎 贯穿 了 处 理 的 全 过 程 。 计 算 机 的 整个 加 工 过 程 往 往 没有 “ 广 
意 ” 参 与 ， 也 没有 过 多 地 与 育 景 信息 进行 比较 做 特征 拥 绑 ， 各 个 层级 的 
加 工 是 单独 进行 的 ， 而 人 的 加 工 则 有 是 多 层级 的 ， 每 一 层级 都 伴随 着 对 
言 奶 不 同 层次 的 表征 。 表 征 和 加 工 往往 是 同时 进行 的 ， 在 对 视觉 信息 
内 容 进 行 特 定 表 征 的 同时 就 完成 了 这 一 层级 的 加 工 ， 这 和 以 单纯 特征 
提取 为 目的 的 线性 或 非 线性 变换 有 本 质 的 区 别 ， 也 减少 了 对 分 类 楷 性 
能 的 依赖 。 


实际 上 ， 单 束 分 类 判别 本 喘 也 有 待 进一步 优化 。 我 们 可 以 将 其 类 
比 为 人 类 的 决策 过 程 。 有 人 研究 指出 ， 人 的 决策 过 程 也 是 一 个 目 动 化 的 
加 工 过 程 ， 可 能 不 是 我 们 理解 的 那 种 主观 性 很 强 的 高 级 加 工 。 有 理论 
认为 ， 决 策 过 程 束 是 感知 阶段 以 后 所 有 证 据 的 累积 形成 的 “ 目 然 而 
然 " 的 结 采 。 这 一 点 对 我 们 设计 分 类 万 具有 重要 局 发 ， 隐 侣 的 意思 可 能 
忠 是 特征 提取 和 分 类 同时 进行 。 对 于 分 类 器 古 有 监督 的 还 是 无 监督 
的 ， 认 知 科学 实际 上 也 已 经 有 了 答案 。 对 特定 分 类 问题 来 说 ， 可 能 
监督 的 效果 更 好 ， 但 是 这 可 能 无 法 适用 于 识别 多 类 别 的 问题 。 有 理论 
认为 ， 视 听觉 信息 的 加 工 应 该 是 无 监督 的 ， 上 婴儿 在 接触 各 种 信息 的 时 
候 并 没有 父母 给 出 的 各 种 标签 做 标记 ， 需 要 靠 目 己 从 规律 中 总 结 ， 他 
们 能 够 在 长 期 的 学 习 中 形成 类 别 ， 目 行 归 类 。 这 对 机 妖 进 行 深度 学 习 
来 说 具有 很 大 局 发 ， 人 类 只 给 定 机 器 一 定 的 算法 规则 ， 机 絮 在 无 人 类 
干预 的 情况 下 目 行 学 习 ， 导 找 算法 规律 进行 总 结 升级 。 
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第 二 节 
让 机 器 像 人 一 样 思考 


(一 ) 从 “深蓝 "到 “阿尔 法 元 ” 


人 工 稚 能 是 人 类 最 美好 的 梦想 之 一 。 人 们 一 直 致 力 于 计算 机 技术 
的 发 展 研 究 ， 以 期 创造 出 一 台 能 产生 “ 目 我 "意识 的 机 妖 。 图 灵 在 1950 
年 的 论文 中 提出 图 灵 试 验 的 设想 ， 即 隔 墙 对 话 ， 你 将 不 知道 与 你 谈话 
的 是 人 还 是 电脑 。 这 无 疑 给 计算 机 ， 尤 其 是 人 工 智能 ， 预 设 了 一 个 很 
高 的 期 望 值 。 如 何 让 机 器 像 人 一 样 学 习 、 思 考 、 做 出 决策 回应 ， 成 为 
人 工 智能 研究 领域 最 热门 的 话题 ， 但 在 后 期 近 半 世纪 的 研究 进程 中 ， 
人 工 六 能 的 研究 远 远 没有 达到 图 灵 试 验 的 标准 。 图 灵 试 验 真 的 吏 那 么 
遥 不 可 及 吗 ? 人 类 真 的 找 不 到 这 个 且 古 难题 的 解决 方案 吗 ? 回答 当然 
征 否 定 的 ， 因 为 如 今 的 机 套 不 仅 能 目 主 学 习 、 目 主 决策 ， 而 且 能 战胜 
世界 冠军 。 


当下 ， 最 能 体现 人 工 智能 的 葛 过 于 人 机 大 战 的 对 决 。20 世 纪 80 年 
代 ， 美 国 卡 内 基 - 梅 隆 大 学 人 研发 了 第 一 批 国 际 象棋 机 器 ， 在 早期 的 研发 
中 较为 成 功 的 是 “深思 >”， 每 秒 能 计算 出 70 万 步 棋 ， 但 “深思 ”还 不 是 当 
时 人 类 国际 象棋 特级 大 师 加 里 : 卡 斯 帕 罗 夫 的 对 手 ， 直 到 “深蓝 ”的 出 
现 。1997 年 5 月 11 日 ， 一 场 举 世 有 瞩目 的 人 机 大 战 落下 帷幕 ，IBM 的 * 深 
蓝 ” 与 国际 象棋 世界 冠军 卡 斯 由 罗 夫 对 弈 后 大 获 全 胜 。 这 是 人 机 对 战 中 
一 场 里 程 碑 似 的 比赛 ， 就 此 意味 着 人 工 智能 的 研究 更 上 了 一 层 楼 。 
在 “深蓝 ”的 设计 者 许 峰 雄 看 来 ,，“ 深 蓝 * 主 要 依靠 强大 的 计算 能 力 穷 举 
所 有 路 数 来 选择 最 佳 策略 ， 其 运算 速度 为 每 秒 3 亿 步 棋 ， 在 预测 棋局 后 
手 局 势 上 , “深蓝 ” 靠 硬 算 可 以 预 判 12 步 棋 ， 卡 斯 帕 罗 夫 可 以 预 判 10 步 


棋 ， 因 而 “深蓝 ”的 获胜 可 以 说 是 靠 “ 蛋 力 ” 获 胜 。 香 借 超越 特级 大 师 对 
后 续 变 化 的 计算 能 力 ， 人 工 知 能 在 棋 类 人 机 大 战 中 占据 上 风 。 然 而 棋 
类 游戏 中 ， 围 棋 一 直 是 人 工 知 能 挑战 人 类 高 手 的 一 座高 峰 ， 而 想 让 机 
妖 在 围棋 上 战胜 人 类 顶尖 棋 手 ， 必 须 先 让 机 器 学 会 像 人 一 样 思 考 。 
此 ， 人 研究 者 开始 思考 如 何 使 机 器 变 得 更 加 乔 能 。 


2016 年 3 月 9 日 韩国 首尔 的 一 场 棋 赛 攻克 了 这 一 难题 ， 又 一 次 将 人 
工 智能 研究 推进 了 一 大 步 。 这 场 棋 赛 由 谷歌 公司 推出 的 智能 机 融 阿 尔 
法 狗 对 战 世界 围棋 冠军 李 世 石 ， 并 以 4:1 的 比分 万 得 了 比赛 ， 让 围棋 这 
座高 峰 不 再 是 人 工 智能 不 可 逾越 的 领域 。 此 后 的 2017 年 10 月 ， 阿 尔 法 
元 (AlphaGo Zero) 研制 成 功 ， 它 在 仅 输入 围棋 规则 、 未 输入 任何 人 
类 棋谱 的 情况 下 ， 通 过 目 学 习 ， 束 具备 了 完胜 阿尔 法 狗 的 超 强 棋 力 ， 
被 认 为 实现 了 人 工 智能 的 重大 突破 。 从 战胜 李 世 石 到 完胜 柯 洁 ， 阿 尔 
法 狗 不 再 使 用 “下 力 ”算法 ， 而 是 采用 了 深度 神经 网 络 系 统 ， 模 仿 人 脑 
神经 元 的 工作 机 理 设计 出 两 个 神经 网 络 一 一 “策略 网 络 ”" 和 “价值 网 
络 ”， 这 两 个 神经 网 络 相 互 配 合 预 判 棋局 走势 ， 决 策 棋 子 落 子 最 佳 位 
置 。 更 重要 的 是 ， 阿 尔 法 狗 在 它 的 神经 网 络 之 间 运 行 数 千 局 围棋 局 
势 ， 利 用 反复 试验 调整 连接 点 来 完成 研究 工作 。 因 此 ， 阿 尔 法 狗 不 再 
拘泥 于 人 为 的 指导 ， 而 是 在 广泛 学 习 了 人 类 围棋 棋谱 后 再 通过 不 断 与 
目 己 对 春 强 化 学 习 ， 在 千 万 次 的 目 我 对 垒 中 提升 棋 乙 ， 并 有 目 行 研究 新 
战略 。 这 种 更 为 强大 的 学 习 能 力 是 阿尔 法 狗 战胜 人 类 顶尖 棋 手 的 关键 
所 在 。 


如 有 果 说 20 年 前 的 超级 计算 机 还 需 依靠 穷 举 手段 才能 战胜 人 类 ， 那 
么 到 了 阿尔 法 元 ， 其 所 表现 出 来 的 乔 茵 和 超 强 学 习 能 力 更 令 人 惊叹 ， 
并 让 人 进一步 确信 人 工 知 能 之 梦 不 再 冰 远 ， 而 深度 学 习 为 成 功 之 路 撒 
下 了 和 需 望 的 种 和子。 深度 学 习 的 概念 源 于 人 工 神 经 网 络 的 研究 ， 其 动机 
在 于 建立 、 模 拟人 脑 进 行 分 析 学 习 的 神经 网 络 ， 让 机 器 能 够 像 人 一 样 
思考 。 从 本 质 上 来 说 ,深度 学 习 古 一 项 “大 数据 工程 "， 需 要 让 机 器 从 
数 以 百 万 计 的 图 像 、 声 首 和 文本 数据 中 ， 通 过 建立 有 效 的 学 习 模 型 ， 


目 行 总 结 出 特定 事物 的 特征 ， 从 而 实现 目 主 学 习 。 其 背后 是 计算 速度 
可 以 絮 美 人 脑 的 高 性 能 计算 集群 快速 完成 海量 数据 的 “学 习 ”。 


(二 ) 构造 人 工 神经 网 络 


深度 学 习 的 概念 源 于 人 工 神 经 网 络 科学 的 发 展 。 其 基本 结构 是 深 
度 神经 网 络 ， 深 度 十 指 神经 网 络 层 数 的 加 深 ， 其 初 囊 是 在 单 层 神经 元 
算法 能 力 有 限 的 情况 下 ， 将 多 层级 的 神经 元 连接 起 来 ， 创 造 出 功能 强 
大 的 多 层 神 经 网 络 。 神 经 网 络 作为 一 种 经 典 的 机 器 学 习 算 法 ， 在 模式 
识别 、 物 体检 测 、 视 频 分 析 和 图 像 识 别 等 领域 发 挥 厦 十 分 重要 的 作 
用 。 


人 工 神 经 网 络 的 构造 源 自 人 脑 神经 网 络 。 人 脑 神经 网 络 是 人 
工 神经 网 络 的 范本 源 录 。 人 工 神 经 网 络 征 在 人 类 对 其 大 脑 及 大 脑 神经 
网 络 认 识 理解 的 基础 上 人 工 构造 能 够 实现 某 种 功能 的 智能 网 络 ， 十 基 
于 模仿 大 脑 神经 网 络 结构 和 功能 而 建立 起 来 的 一 个 信息 处 理 系统 。 
此 ， 人 工 神 经 网 络 的 提出 是 人 类 在 对 大 脑 及 大 脑 神经 网 络 认 识 理解 的 
基础 上 模拟 出 的 一 套 人 神经 网 络 系统 。 根 据 人 脑 神经 网 络 系统 ， 人 可 以 
对 外 界 的 信息 进行 加 工学 习 并 做 出 相应 的 处 理 决 策 ， 因 此 ， 人 工 神经 
元 网 络 的 初 建 意图 束 古 通过 模拟 这 套 完善 的 人 脑 神经 元 网 络 处 理 现实 
中 的 数据 信息 ， 设 计 出 新 型 的 机 右 ， 使 之 具有 人 那样 的 信息 处 理 能 力 
和 决策 能 力 。 


人 工 神经 网 络 是 由 相互 作用 的 大 量 神经 元 构成 的 并 行 处 理 网 络 ， 
以 模拟 生物 神经 系统 的 方式 处 理 信 息 。 其 在 构成 特征 上 有 着 许多 和 人 
脑 神经 元 相似 的 特征 : 第 一 ， 神 经 元 是 一 个 多 输入 (一 个 神经 元 的 多 
个 树 突 与 其 他 神经 元 通过 突 触 相 联 系 ) 、 单 输出 (一 个 神经 元 只 有 一 
个 轴 突 作为 输出 通道 ) 单元 ,第 二 ， 神 经 元 是 一 个 具有 非 线性 输入 二 
输出 特性 的 单元 ， 当 细胞 体 中 接收 信号 的 素 加 作用 超过 一 个 靖 值 时 ， 


细胞 体 才 被 激发 ， 这 时 它 发 出 信号 通过 轴 突 传 同 其 他 神经 元 ， 第 三 ， 
神经 元 具有 可 塑性 ， 细 胞 体 接收 不 同 神经 元 的 输入 信号 的 强度 ， 是 由 
相应 突 触 的 连接 强度 调 证 的 。 


从 人 工 神 经 网 络 的 结构 来 看 ， 单 个 神经 元 的 功能 极其 有 限 ， 而 由 
大 量 的 神经 元 通过 互 连 构 造 而 成 的 神经 网 络 ， 具 有 非常 强大 的 集团 运 
算 能 力 ， 是 大 量 形象 思维 、 抽 象 思维 和 灵感 思维 的 物理 基础 。 最 早 的 
神经 网 络 模型 的 互 连 模式 是 单 层 或 两 层 结构 。 各 神经 元 的 互联 表现 
为 : 单 讨 全 互 连 ， 单 层 局 部 互 连 ， 同 层 神 经 元 互 不 连接 ， 层 与 层 间 神 
经 元 互 连 ， 输 出 层 与 输入 层 有 反馈 连接 。 在 神经 网 络 模型 中 一 种 比较 
典型 的 互 连 模式 是 多 层 神 经 网 络 结构 ， 具 有 学 习 能 力 和 并 行 处 理 信息 
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人 工 神 经 网 络 的 自主 学 习 。 人 们 在 建立 人 工 神经 网 络 后 ， 还 要 
让 其 能 像 人 脑 神经 网 络 一 样 运行 工作 ， 在 拥有 类 似 的 神经 元 网 络 后 ， 
我 们 将 思考 如 何 让 人 工 神 经 网 络 为 人 类 所 用 。 神 经 网 络 是 根据 不 同 的 
神经 元 构成 不 同 的 神经 网 络 系统 的 ， 因 此 ， 首 先 要 针对 所 要 解决 的 问 
题 来 构建 相应 的 神经 网 络 系统 ， 因 为 神经 网 络 最 初 是 处 于 无 知 状态 
的 ， 它 所 拥有 的 知识 源 于 各 种 初始 输入 的 信息 ， 无 论 这 个 来 产 是 人 、 
计算 机 程序 还 是 其 他 信息 源 。 这 也 和 是 人 工 神经 网 络 能 够 模拟 运行 的 天 
键 所 在 。 神 经 网 络 线路 和 突 触 强度 都 是 随机 设 定 的 ， 所 以 未 加 训练 的 
神经 网 络 给 出 的 答案 也 是 随机 的 。 神 经 网 络 最 初 处 于 无 知 状态 ， 经 过 
学 习 后 成 为 更 加 成 熟 的 神经 网 络 。 仍 处 于 学 习 阶 段 的 神经 网 络 也 会 根 
据 输入 规则 得 到 相应 的 反馈 依据 ， 通 过 反馈 调整 不 同 神经 元 的 连接 强 
度 。 好 比 当 学 生 回 答 正确 时 ， 老 师 就 会 痰 励 他 ， 给 出 错误 答案 时 ， 老 
师 束 会 惩罚 他 。 那 些 与 正确 答案 一 致 的 连接 强度 会 不 断 增 强 ， 而 给 出 
错误 答案 的 连接 强度 则 会 减弱 。 一 段 时 间 后 ， 即 使 没有 人 类 的 干预 和 
指导 ， 神 经 网 络 也 能 目 行 运算 出 正确 答案 。 这 融 是 神经 网 络 能 够 目 主 
学 习 的 关键 所 在 ， 也 成 为 当下 机 需 能 够 脱离 人 类 干预 完成 目 主 学 习 、 
目 主 决策 的 重要 原理 。 


(三 ) 深度 学 习 驱 动机 堪 智 能 决策 


深度 学 习 的 概念 源 于 人 工 神 经 网 络 的 研究 ， 因 而 又 称 为 深度 神经 
网 络 ， 其 研究 的 兴起 钙 继 浅 层 学 习 后 人 们 对 机 器 学 习 人 研究 掀起 的 第 二 
次 热 泣 ， 很 多 时 候 几 乎 成 为 人 工 智能 的 代名词 。 深 度 学 习 的 本 质 其 实 
忠 是 多 层 神 经 网 络 ， 对 神经 网 络 而 言 ， 深 度 束 古 网 络 学 习 得 到 的 函数 
中 非 线 性 运算 组 合 水 平 的 数量 。 有 多 个 隐 层 的 多 层 感 知 右 是 深度 学 习 
模型 的 一 个 很 好 的 范例 。 深 度 学 习 通 过 组 合 低层 特 征 形成 更 加 抽象 的 
高 层 表 示 属 性 类 别 或 特征 ， 以 发 现 数据 的 分 布 式 特征 。 深 度 学 习 的 概 
念 和 其 他 机 器 学 习 算 法 最 大 的 不 同 在 于 如 何 找 到 特征 ， 而 特征 的 抽取 
过 程 束 是 一 个 抽象 的 过 程 。 以 往 ， 特 征 抽取 的 其 他 机 器 学 习 算 法 都 是 
对 一 类 问题 有 解 ， 深 度 学 习 抽 象 模 拟 了 人 类 神经 元 传递 信息 和 连接 的 
方式 ， 从 理论 上 说 ， 它 可 以 完成 多 种 分 类 和 预测 问题 ， 甚 至 可 以 研究 
未 知 领 域 。 


深度 学 习 的 兴起 源 于 2006 年 加 拿 大 多 伦 多 大 学 教授 、 机 妖 学 习 领 
域 的 泰斗 欣 顿 和 他 的 学 生 萨 拉 赫 丁 诡 夫 在 顶尖 学 术 刊 物 《 科 学 》 上 发 
表 的 一 篇 文章 。 这 篇 文章 讲述 了 两 条 主要 信息 : 第 一 ， 很 多 隐 层 的 人 
工 神经 网 络 具 有 优异 的 特征 学 习 能 力 ， 学 习 得 到 的 特征 对 数据 有 更 本 
质 的 刻画 ， 从 而 有 利于 可 视 化 或 分 类 ;第 二 ， 深 度 神经 网 络 在 训练 上 
的 困难 可 以 通过 “ 逐 层 初始 化 "有效 克服 。 由 此 ， 深 度 神经 网 络 ( 即 深 
度 学 习 ) 这 一 概念 进入 学 术 界 视野 ， 使 学 术 界 重 燃 其 对 神经 网 络 研 究 
的 热情 ， 引 来 一 大 批 优秀 学 者 在 多 地 组 建 研 究 团队 积极 投身 参与 到 深 
度 学 习 的 研究 中 。 其 中 ， 斯 坦 福 大 学 、 纽 约 大 学 、 加 拿 大 桶 符 利 尔 大 
学 等 成 为 研究 深度 学 习 的 重镇 。2010 年 ， 美 国 国防 部 国防 高 级 研究 计 
划 局 计划 首次 资助 深度 学 习 项 目 ， 参 与 方 有 斯 坦 福 大 学 、 纽 约 大 学 和 
日 本 电气 股份 有 限 公司 美国 研究 院 。 文 持 深 度 学 习 的 一 个 重要 依据 ， 
忠 是 脑 神 经 系统 的 确 具 有 丰富 的 层次 结构 。 一 个 最 着 名 的 例子 束 苹 胡 


贝尔 - 维 泽 尔 (Hubel-Wiesel) 模型 ， 胡 贝尔 和 维 泽 尔 二 人 因 揭 示 了 视 
觉 神 经 的 机 理 而 获得 诺 贝 尔 生 理学 或 医学 次。 


目前 ， 深 度 学 习 的 理论 研究 还 基本 处 于 起 步 阶 段 ， 但 在 应 用 领域 
已 经 显现 巨大 能 量 ， 展 现 出 越 来 越 优越 的 性 能 特征 ， 尤 其 体现 在 图 像 
识别 、 语 音 识别 和 目 然 语言 处 理 等 领域 。2011 年 以 来 ， 微 软 研 究 院 和 
谷歌 的 语音 识别 研究 人 员 移 后 采用 深层 神经 网 络 技术 降低 了 语音 识别 
20%~30% 的 错误 率 ， 是 语音 识别 领域 十 多 年 来 最 大 的 一 次 突破 性 进 
展 。2012 年 深层 神经 网 络 技术 又 在 图 像 识别 领域 取得 惊人 的 效 有 末 ， 在 
ImageNet 评测 上 将 错误 率 从 26% 降 至 15%。 在 这 一 年 ， 深 层 神 经 网 
络 还 被 应 用 于 制药 公司 的 药物 活性 预测 问题 ， 并 获得 世界 最 好 成 绩 ， 
这 一 重要 成 果 倍 《纽约 时 报 》 报 道 。 


如 今 谷 歌 、 微 软 、 百 度 等 知名 的 拥有 大 数据 的 高 科技 公司 争 相投 
资源 ， 占 领 深度 学 习 的 技术 制高点 。2012 年 谷歌 发 起 了 一 个 深度 学 
习 项 目 ， 该 项 目 让 一 个 神经 网 络 使 用 16 000 个 CPU 组 建成 一 个 大 规模 
的 计算 机 集群 ， 让 计算 机 使 用 深度 学 习 模 型 自发 观看 1 000 万 段 
YouTube 视 频 进 行 训练 ， 最 终 实现 计算 机 自己 学 习 如 何在 视频 中 识别 
猎 脸 。2016 年 ， 合 歌 旗下 的 深思 公司 使 用 机 屁 深 度 学 习 的 方式 让 计算 
机 自发 学 习 如 何 下 围棋 ， 以 此 战胜 坐 拥 14 座 冠军 奖杯 的 围棋 战 将 李 世 
石 ， 由 此 推动 深度 学 习 名 声 大 品 。 不 光 是 谷歌 ，Facebook 也 致力 于 深 
度 学 习 的 平台 建设 。2016 年 ，Facebook 公 开 了 其 深度 学 习 平 台 Torchnet 
和 基于 深度 学 习 技 术 的 目 然 语 言 理解 引擎 DeepText。 深 度 学 习 不 仅 受 
到 国外 IT 巨头 的 热 氛 ， 在 国内 也 是 当下 热门 的 研发 领域 。 百 度 于 2015 
年 5 月 通过 * 深 盟 " 开 建 了 其 深度 机 器 学 习 平 台 MXNet， 又 在 2016 年 1 月 
开 建 了 深度 学 习 算 法 Warp-CTC 系 统 ， 致 力 于 语音 识别 技术 的 研发 。 
2014 年 9 月 ， 束 东 挂 牌 成 立 了 京东 深度 神经 网 络 实验 室 ， 当 下 的 永 东 客 
服 机 器 人 JIMI 就 是 由 京东 深度 神经 网 络 实 验 室 开发 出 来 用 于 京东 客服 
工作 的 即时 聊天 软件 ， 可 用 于 大 东 商城 的 售 前 咨询 、 售 后 服务 等 自动 
在 线 回答 服务 。2015 年 ， 阿 里 巴巴 也 推出 了 新 一 代 智 能 客服 产品 阿里 


小 蜜 ， 该 智能 客服 产品 基于 语音 识别 、 语 义理 解 、 个 性 化 推荐 、 深 度 
学 习 等 人 工 智能 技术 的 应 用 ， 每 天 应 对 百 万 级 服务 量 ， 并 能 达到 80% 
的 智能 解决 效率 。 


由 此 看 来 ， 深 度 学 习 已 然 成 为 国内 外 IT 巨 尖 产 业 化 研究 的 趋势 热 
上 护 ， 这 一 趋势 并 不 仅仅 受 科 学 人 研究 动力 驱使 ， 也 是 基于 我 们 当下 所 生 
活 的 大 数据 时 代 ， 即 我 们 需要 更 加 复杂 且 更 加 强大 的 深度 模型 来 深刻 
揭示 海量 数据 里 承载 的 复杂 而 丰富 的 信息 ， 并 对 未 来 或 未 知事 件 做 更 
精准 的 预测 。 在 大 数据 条 件 下 ， 只 有 更 加 复杂 的 模型 ， 或 者 说 表达 能 
力 强 的 模型 ， 才 能 充分 发 掘 海量 数据 中 组 藏 的 丰富 信息 ， 才 能 使 我 们 
从 大 数据 中 发 掘 出 更 多 有 价值 的 信息 和 知识 。 为 了 理解 为 什么 大 数据 
需要 深度 学 习 ， 先 举 一 个 例子 : 语音 识别 已 经 是 一 个 大 数据 的 机 器 学 
习 问 题 ， 在 其 声学 建 模 部 分 ， 通 常 面临 的 是 十 亿 到 千 亿 数量 级 的 训练 
样本 。 在 谷歌 的 一 个 语 首 识别 实验 中 ， 发 现 训 练 后 的 深度 学 习 对 训练 
样本 和 测试 样本 的 预测 误差 基本 相当 。 这 是 违反 常识 的 ， 因 为 通 汝 模 
型 在 训练 样本 上 的 预测 误差 显著 小 于 测试 样本 。 只 有 一 个 解释 ， 束 是 
由 于 大 数据 里 人 有 丰富 的 信息 维度 ， 即 便 是 深度 学 习 这 样 的 高 容量 复 
杂 模 型 也 处 于 欠 拟 合 的 状态 。 由 此 我 们 可 以 看 出 ， 大 数据 的 发 展 需 要 
深度 学 习 提 供 技 术 文 撑 。 


如 果 把 深度 学 习 比 作 一 个 物种 ， 和 其 他 机 器 学 习 物 种 相 比 ， 它 有 
两 个 特点 。 一 古 不 挑食 。 无 论 原始 数据 属于 图 像 识 别 、 语 言 识别 、 生 
物 医 药 等 哪个 领域 ， 都 可 以 “ 喂 ” 给 神经 网 络 学 习 处 理 。 这 和 大 脑 的 工 
作 诛 理 相似 ， 大 脑 用 同一 套 算法 解决 视觉 、 听 觉 、 嗅 觉 等 感知 问题 。 
二 征明 口 大 。 喂 给 它 的 数据 越 多 ， 它 殉 变 得 能 力 越 强 、 直 聪明， 并 且 
只 会 吃 饮 ， 不 会 消化 不 恨 。 正 是 这 两 个 特点 ， 使 得 深度 学 习 在 今天 拥 
有 足够 食物 补给 (大 数据 ) 的 情况 下 能 够 造 勃 发 展 。 所 以 ， 与 人 工 规 
则 构造 特征 的 方法 相 比 ， 利 用 大 数据 来 学 习 特 征 ， 更 能 够 刻画 数据 丰 
富 的 内 在 信息 。 在 未 来 的 几 年 里 ， 深 度 学 习 模 型 将 更 多 地 应 用 于 大 数 
所 领域。 


1. 


ImageNet 是 由 斯 坦 福 大 学 的 计算 机 科学 家 模拟 人 类 的 识别 系统 建立 的 计算 机 视觉 系 
统 识别 项 目 。 一 一 编者 六 
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第 三 节 
智能 判断 与 决策 


(一 ) 提取 特征 


特征 是 机 器 学 习 的 原材料 ， 是 一 种 对 数据 的 表达 。 其 对 最 终 模型 
的 影响 弛 庸 置 疑 ， 如 末 数 据 被 很 好 地 表达 成 了 特征 ， 通 党 模型 就 能 达 
到 满意 的 精准 度 。 因此， 特征 的 选择 至 天 重要 ， 对 于 同一 种 学 习 模 
型 、 同 样 的 学 习 方法 、 同 样 的 数据 ， 选 择 不 同 的 特征 来 表达 ， 可 能 会 
产生 完全 不 同 的 效果 。 当 然 ， 衡 量 一 种 特征 是 不 是 合适 的 表达 ， 要 根 
据 数据 、 应 用 、 机 器 学 习 的 模型 和 方法 等 很 多 方面 判定 。 数 据 搜索 与 
关联 融合 为 日 激活 提供 了 巨大 的 数据 资源 ， 而 原始 特征 常常 不 能 满足 
实际 要 求 ， 所 以 一 个 重要 的 难点 束 是 如 何 提取 和 选择 合适 的 特征 为 目 
激活 况 定 基础 。 因 此 ， 特 征 的 提取 和 远 择 成 为 目 激活 运行 过 程 中 最 基 
础 的 关键 环节 之 一 。 


一 般 来 说 ， 竺 征 应 该 是 具有 丰富 信息 量 的 ， 且 具有 区 分 性 和 独立 
性 。 竺 征 有 很 多 种 特性 和 分 类 : 可 以 是 线性 的 ， 也 可 以 是 非 线性 的 ; 
可 以 是 固定 的 ， 也 可 以 是 适应 性 的 。 好 的 特征 可 以 提供 数据 的 语义 和 
结构 信息 ， 能 发 现 更 有 意义 、 更 潜在 的 变量 ， 有 助 于 对 数据 信息 产生 
更 深入 的 了 解 ， 即 使 古 简单 的 任务 模型 也 能 取得 民 好 的 学 习 效 采 。 好 
的 特征 表达 ， 对 最 终 算 法 的 准确 性 起 着 非常 天 键 的 作用 ， 并 影响 着 系 
统 主要 的 计算 和 测 斌 工作。 等 征 提取 是 从 数据 特征 中 获取 信息 的 过 
程 ， 通 过 变换 特征 获取 数据 的 信息 ， 减 少数 据 存 储 和 输入 数据 市 宽 。 
在 特征 提取 前 ， 我 们 需要 从 数据 特征 中 挑选 对 任务 有 帮助 的 特征 子 


集 ， 通 过 合理 地 组 合 合适 的 特征 提取 方法 和 特征 选择 方法 ， 使 目 微 活 
更 好 地 进入 下 一 个 构建 模型 的 环节 。 


等 征 握 取 需 要 将 高 维 的 原始 特征 通过 映射 或 变换 的 方式 变 成 低 维 
空间 较 小 的 新 特征 ， 原 始 特征 映射 空间 的 求解 一 般 可 以 通过 人 工 设置 
生成 方法 ， 这 也 可 人 稍 单 地 称 作 从 数据 中 目 动 学 习 。 这 种 方式 的 设计 过 
程 需 要 专业 的 先 验 知识 ， 整 个 过 程 需 要 耗费 巨大 的 人 力 和 物力 ， 尤 其 
是 当 原始 数据 分 布 在 高 维 空间 的 时 候 (如 图 像 数 据 、 基 因数 据 ， 这 
一 任务 更 显得 难以 完成 。 与 此 同时 ， 人 工 设计 的 特征 也 更 具 随 机 性 ， 
大 量 人 工 设计 特征 的 有 效 性 难以 得 到 保障 。 为 了 减少 对 人 力 的 依赖 ， 
并 且 能 较 好 地 提取 相关 特征 ， 目 动 学 习 特 征 的 算法 使 得 人 工 关 能 的 愿 
景 令 人 期 每 。 


目 激 活 系 统 的 第 一 阶段 可 以 采用 从 数据 中 目 动 学 习 特征 的 方法 ， 
即 应 用 深度 学 习 原 理 ， 其 所 学 习 到 的 特征 往往 具有 较 高 的 抽象 性 和 语 
义 性 。 通 过 逐 层 变换 ， 深 度 学 习 模 型 可 以 在 不 同 层 抽 取 数 据 的 不 同 表 
示 。 获 取 最 终 特征 有 两 个 步骤 ， 一 是 特征 提取 ， 是 在 原始 特征 的 维 数 
很 高 的 情况 下 ， 将 原始 特征 通过 映射 或 变换 的 方法 用 低 维 空间 表示 样 
本 ， 生 成 一 组 具有 了 明显 物理 意义 或 者 统计 意义 的 特征 ， 二 是 特征 选 
择 ， 是 一 种 从 数据 特征 中 挑选 出 对 任务 有 帮助 的 特征 子 集 的 方法 ， 从 
一 组 特征 中 挑选 出 一 些 最 有 效 的 特征 以 达到 降低 特征 空间 维 数 的 目 
网 


(二 ) 构建 模型 


有 了 竺 征 之 后 ， 我 们 要 通过 模型 建立 从 特征 到 目标 之 间 的 关系 。 
目标 瓯 是 我 们 的 目的 ， 是 目 激 活 目 主 决策 的 总 要 义 ， 我 们 要 达到 目标 
决策 的 输出 ， 束 需要 对 我 们 的 特征 数据 进行 建 模 加 工 处 理 ， 狭 义 地 说 
束 是 给 机 器 设 定 一 个 算法 规则 ， 让 其 能 根据 我 们 的 需求 对 数据 进行 处 


理 。 数 据 搜 索 和 关联 融合 阶段 为 目 激 活 阶 段 提 供 了 大 量 与 主题 相关 的 
数据 训练 集 和 测试 集 ， 提 取出 特征 后 ， 输 入 构建 的 模型 中 ， 如 果 与 我 
们 的 期 望 值 存在 误 靶 ， 则 调整 权重 ， 再 用 测试 集 测试 权重 是 否 调 整 得 
正确 。 如 此 在 构建 模型 的 过 程 中 不 断 优化 模型 的 建构 ， 当 有 新 示例 
时 ， 我 们 束 可 通过 这 个 模型 进行 更 为 精准 的 目 主 判断 或 预测 。 


此 外 ， 当 我 们 设 定 的 参数 取 值 不 同时 ， 一 个 特定 的 模型 类 可 能 会 
有 几 十 个 或 者 成 千 上 万 个 模型 ， 这 时 就 需要 我 们 将 这 些 模型 融合 在 一 
起 。 比 如 一 个 三 层 的 前 疝 神经 网 络 ， 可 能 包含 15 个 神经 元 ， 由 几 十 个 
参数 确定 。 因 为 神经 元 数目 、 神 经 连接 数目 和 参数 取 值 不 同 ， 可 以 有 
多 个 模型 子 集 ， 每 个 模型 的 参数 都 是 经 过 特征 到 目标 的 学 习 过 程 确 定 
的 ， 单 一 模型 的 预测 和 分 类 结果 往往 不 尽 如 人 意 ， 所 以 我 们 形象 地 把 
每 个 模型 都 叫 作 弱 预测 器 或 者 弱 分 类 骸 。 在 我 们 有 了 成 干 上 万 个 模型 
后 ， 束 可 以 通过 把 模型 融合 起 来 ， 获 得 更 好 的 预测 或 者 分 类 结 末 。 具 
体 来 看 ， 我 们 可 以 针对 每 个 竺 分 类 样本 ， 把 每 个 模型 得 到 的 结 采 都 看 
作对 这 个 样本 分 类 结果 的 一 次 投票 ， 最 后 根据 得 票 高 低 确 定 最 终 分 类 
结 末 ， 投 票 结 果 经 党 胜出 的 模型 会 被 赋予 更 大 权重 。 很 多 决策 问题 都 
可 以 通过 这 种 办 法 进行 优化 ， 大 幅 提 高 其 精准 度 。 因 为 融合 的 方案 是 
比较 固定 的 ， 所 以 我 们 只 需要 维护 特征 库 和 模型 库 ， 而 所 有 新 的 数据 
基本 上 都 映射 为 对 特征 库 和 模型 库 的 更 新 ， 包 括 对 特征 权重 的 修正 ， 
这 样 才 能 保证 决策 输出 的 正确 性 。 因 此 ， 在 构建 模型 的 过 程 中 ， 模 型 
的 架构 往往 不 止 一 种 ， 根 据 目 标 决策 ， 模 型 融合 会 给 决策 的 输出 提供 
更 为 精准 、 更 符合 目标 的 决策 结 有 末 。 目 前 彰 用 的 模型 有 决 党 树 、 神 经 
网 络 、 线 性 模型 等 。 


决策 树 。 决 策 树 学 习 是 一 种 逼近 离散 值 目标 画 数 的 方法 ， 这 种 方 
法 将 从 一 组 训练 数据 中 学 习 到 的 函数 表示 为 一 棵 决策 树 ， 它 是 一 种 负 
用 于 预测 模型 的 算法 ， 通 过 将 大 量 数据 有 目的 地 分 类 ， 从 中 找到 一 些 
具有 关联 、 潜 在 关联 的 数据 。 现 有 的 已 开发 的 决策 树 学 习 算 法 都 采用 
目 上 而 下 、 分 而 治之 的 递归 方式 搜索 遍历 可 能 的 决策 树 空间 。 这 种 方 


法 是 算法 和 后 继 算法 的 基础 。 算 法 束 是 学 习 构造 决策 树 的 一 个 基本 的 
归纳 算法 。 


分 类 的 目的 是 通过 学 习 得 到 一 个 分 类 函数 或 分 类 模型 ， 该 模型 能 
把 数据 库 中 的 数据 映射 到 给 定 类 别 中 的 某 一 个 。 分 类 和 回归 都 可 用 于 
预测 。 预 测 的 目的 是 从 历史 数据 记录 中 目 动 推导 出 给 定数 据 的 推广 描 
述 ， 从 而 能 对 未 来 数据 进行 预测 。 利 用 决策 树 对 数据 进行 分 类 遵循 两 
大 步 台 ， 甫 先 ， 对 训练 数据 进行 学 习 ， 建 构 一 棵 决策 树 ， 即 决策 树 的 
归纳 ， 其次， 对 于 每 个 具体 测试 样本 ， 利 用 生成 的 决策 树 提取 的 分 类 
规则 ， 确 定 样本 的 类 别 。 按 照 决策 树 对 数据 进行 分 类 的 步骤 ， 我 们 可 
以 看 出 它 隐 合 地 定义 了 一 个 映 冉 。 这 个 映 喘 所 需要 的 过 程 束 古 决 策 树 
的 数据 判别 从 根 到 叶子 节点 的 流程 。 当 然 ， 不同 的 决策 树 算法 所 形成 
的 决策 树 是 不 同 的 ， 因 此 对 同一 数据 集 的 分 类 结 采 也 不 同 。 


神经 网 络 。 神 经 元 是 神经 网 络 中 最 基本 的 成 分 ， 人 们 将 其 结构 
模式 模拟 为 神经 网 络 模 型 。 在 生物 神经 网 络 中 ， 每 个 神经 元 与 其 他 神 
经 元 相连 ， 当 它 “ 兴 奋 ”" 时 ， 束 会 同 相连 的 神经 元 发 送 化 学 物质 ， 从 而 
改变 这 些 神 经 元 内 的 电位 ; 如 果 某 神经 元 的 电位 超过 了 一 个 国 值 ， 那 
么 它 驳 会 家 激活 ， 即 “兴奋 ?起 来 ， 回 其 他 神经 元 发 送 化 学 物质 。 在 神 
经 元 模型 中 ， 神 经 元 接收 到 来 目 其 他 多 个 神经 元 传递 过 来 的 输入 信 
号 ， 这 些 输入 信号 通过 市 权重 的 连接 传递 ， 神 经 元 接收 到 的 总 输入 值 
将 与 神经 元 的 病 值 进行 比较 ， 然 后 通过 激励 钞 数 处 理 以 产生 神经 元 的 
输出 。 


一 般 神 经 网 络 模型 的 结构 包括 三 个 部 分 : 输入 层 、 隐 含 层 和 输出 
层 。 输 入 层 主 要 将 输入 的 数据 转化 成 一 串 数 字 ， 隐 含 层 则 根据 输入 层 
输入 进来 的 数字 计算 出 一 组 中 间 的 结果 ， 最 后 输出 层 根据 隐 含 层 得 到 
的 结果 做 出 最 终 的 决策 。 每 一 层级 的 数据 流通 都 源 目 上 一 层级 神经 元 
的 传递 。 在 神经 网 络 工作 时 ， 每 层 神经 元 根据 上 一 层 的 输出 和 对 应 的 
连接 权重 做 加 权 求 和 后 产生 一 个 数值 ， 这 个 数值 需要 经 过 一 个 非 线性 


变换 后 再 传递 到 下 一 层 。 这 个 非 线性 变换 吏 是 通过 油 励 函数 实现 的 。 
激励 画 数 可 以 理解 为 将 任意 一 个 输入 数值 转化 为 有 数值 评判 的 过 程 ， 
其 作用 类 似 神 经 细胞 的 信息 传导 。 复 杂 神 经 网 络 的 隐 售 层 往往 有 多 
个 ， 隐 舍 层 的 数量 越 多 ， 表 达 的 能 力 融 越 强 ， 从 而 能 解决 的 问题 吏 越 
多 ， 所 输出 的 决策 束 越 有 效 。 


线性 模型 。 线 性 模型 是 一 个 通过 属性 的 线性 组 合 进 行 预测 的 画 
数 ， 在 相关 条 件 设 定 后 ， 模 型 得 以 确定 。 线 性 模型 形式 人 简单、 易于 建 
模 ， 却 强 泣 着 机 器 学 习 中 的 一 些 重 要 基本 思想 ， 许 多 功能 更 为 强大 的 
非 线 性 模型 可 在 线性 模型 的 基础 上 引入 层级 结构 或 高 维 映射 得 到 。 此 
外 ， 由 于 变量 条 件 直 观 表 达 了 各 属性 在 预测 中 的 重要 性 ， 线 性 模型 有 
很 好 的 解释 性 。 线 性 模型 使 用 简单 的 公式 通过 一 组 数据 点 查找 最 优 管 
案 。 通 过 已 知 的 变量 方程 ， 可 以 求 出 想 要 预测 的 变量 。 为 了 求 出 预测 
量 ， 我 们 输入 已 知 的 变量 得 到 答案 。 换 句 话 说 ， 需 要 得 到 目标 预测 
量 ， 我 们 通过 变量 方程 的 拟定 ， 输 入 相关 变量 算出 我 们 的 预测 结果 ， 
进而 作为 决策 的 判断 参考 。 在 目 激 活 的 决策 过 程 中 ， 根 据 我 们 的 数据 
言 尽 符 征 ， 我 们 需要 选 定 一 个 合适 的 模式 进行 参数 调整 。 在 设 定 学 习 
规则 时 ， 我 们 能 通过 期 望 值 不 断 修正 权重 ， 最 终 得 到 一 个 可 用 权重 并 
用 训练 好 的 模型 分 类 或 预测 新 示例 。 


(三 ) 决策 输出 


机 器 通过 深度 学 习 算法 学 习 特 征 、 构 建 模 型 并 通过 提取 出 的 特征 
不 断 调整 模型 参数 ， 机 器 已 具备 了 目 主 学 习 的 能 力 ， 学 得 一 个 正确 的 
模型 ， 可 以 根据 这 个 正确 的 模型 实现 正确 的 分 类 或 预测 ， 即 机 器 已 具 
备 了 日 主 决策 能 力 。 机 器 的 决策 输出 代表 了 机 妖 目 主 学 习 的 能 力 ， 决 
策 越 来 越 正 确 束 代表 了 机 器 目 主 学 习 能 力 越 来 越 强 。 当 然 ， 机 右 的 决 
策 输出 受到 很 多 因素 的 限制 ， 特 征 学 习 的 算法 不 同 ， 任 务 模型 的 选择 


不 同 ， 机 器 目 激活 后 价值 输出 就 会 不 同 。 现 在 基于 深度 学 习 的 特征 所 
取 可 以 实现 更 加 抽象 的 特征 表示 ， 为 目 激活 的 价值 输出 提供 了 条 件 。 
我 们 将 一 步 步 细 看 目 激活 是 如 何 进行 决策 输出 的 。 


第 一 阶段 是 策略 网 络 的 形成 。 数 据 搜索 和 关联 融合 阶段 提供 
的 数据 会 在 目 激 活 阶段 被 提取 特征 ， 在 已 有 先 验 知识 的 基础 上 ， 通 过 
分 类 识别 来 目 不 同 信息 源 的 特征 得 出 结果 ， 这 个 过 程 是 一 个 获取 经 验 
的 过 程 。 通 过 得 出 的 结果 形成 一 个 对 特征 数据 进行 加 工 处 理 的 神经 网 
络 模型 ， 即 策略 网 络 。 该 党 略 网 络 的 形成 源 于 设 定好 的 算法 规则 和 诀 
策 目标 。 目 激活 的 策略 网 络 是 一 个 有 监督 学 习 策 略 的 网 络 ， 输 入 样本 
特征 后 ， 能 够 预 判 出 解决 问题 的 所 有 和 宽 略 方案 ， 并 映射 出 每 个 策略 方 
案 获得 成 功 的 概率 分 布 ， 通 过 观察 具体 的 环境 状态 ， 直 接 预 测 出 目前 
成 功 概率 最 大 、 最 应 该 执行 的 策略 。 


第 二 阶段 是 总 结 规律 。 在 策略 网 络 建立 后 ， 机 器 就 有 了 自行 训 
练 以 强化 学 习 的 基础 。 为 了 达到 训练 的 目的 ， 自 激活 需要 大 量 的 训练 
样本 ， 样 本 束 是 数据 人 资源， 训练 好 的 模型 惑 可 以 用 来 预 判 出 更 优 更 好 
的 决策 策略 。 整 个 样本 的 训练 过 程 需 要 大 量 的 数据 资源 ， 这 古 当 下 海 
量 数据 所 能 提供 的 优势 资源 。 当 然 目 激活 并 非 仅仅 通过 单纯 的 训练 整 
能 完成 最 后 的 决策 输出 ， 而 是 接着 用 强化 学 习 的 方式 进一步 提高 系统 
的 性 能 。 在 这 里 ， 强 化 学 习 主要 用 来 搜集 更 多 的 样本 ， 从 而 提高 系统 
的 准确 率 。 让 机 器 不 断面 对 新 的 刺 沿 信号 来 训练 完善 目 映 神经 网 络 ， 
通过 多 次 和 欠 代 训练 产生 不 断 升 级 版 本 的 神经 网 络 。 参 数 的 不 断 调整 ， 
使 得 构建 的 模型 越 来 越 准确 ， 即 总 结 获得 更 正确 的 规律 。 


第 三 阶段 是 最 终 决策 的 输出 。 不 管 是 策略 网 络 的 构建 、 规 律 
的 总 结 还 是 决 生 的 输出 ， 都 是 目 激 活 的 价值 输出 。 策 略 网 络 是 价值 输 
出 的 第 一 步 ， 为 最 后 的 决策 输出 提供 了 条 件 ， 规 律 的 总 结 是 一 个 目 主 
对 蜀 和 目 主 学 习 的 过 程 ， 只 为 决策 的 准确 性 ， 最 后 决策 的 输出 则 证 明 
了 之 前 的 目 主 学 习 特征 。 机 器 在 已 有 的 神经 网 络 基 础 上 ， 通 过 调整 权 


重 ， 进 行 搜 抢 学 习 后 输出 策略 结果。 通过 已 形成 的 神经 网 络 对 现行 入 
略 结果 进行 验证 ， 当 决策 的 正确 率 不 满足 要 求 的 时 候 ， 则 将 那些 不 满 
足 要 求 的 增加 到 训练 中 ， 返 回 重新 学 习 ， 直 到 满足 要 求 为 止 ， 由 此 和 输 
出 最 终 最 优 的 决策 结 


目 激 活 的 决策 输出 是 机 大 智 能 决策 的 关键 环 入 ， 决 策 的 输出 实现 
了 目 激 活 的 意义 。 数 据 在 通过 相应 模型 的 构建 后 提取 当前 事物 的 特 
征 ， 并 与 系统 内 部 特征 数据 库 里 的 特征 相 匹配 ， 然 后 根据 训练 特征 集 
和 测试 特征 集 联合 起 来 不 断 调 整 模型 参数 。 当 我 们 通过 一 个 特定 的 模 
型 运算 时 ， 目 激活 系统 会 有 一 个 结 采 输出 ， 这 个 结果 或 许 是 对 数据 的 
分 类 ， 或 许 是 对 数据 的 优化 ， 或 许 是 对 数据 隐 含 事件 的 一 种 预测 ， 但 
征 因 为 每 个 目 激 活 系统 的 特征 数据 库 不 同 及 算法 不 同 ， 所 以 输出 的 结 
果 不 同 ， 进 而 做 出 的 决策 也 会 不 同 。 即 使 是 单个 系统 ， 针 对 预测 问题 
时 ， 目 激活 系统 也 会 出 现 多 种 方案 ， 这 时 殉 需 要 热点 减 量 ， 才 能 更 有 
效 地 使 系统 继续 “学 习 ”、 实现 超越 。 


激活 数据 学 中 的 热点 减 量 化 古 超 数据 时 代 如 何 对 海量 数据 进行 有 
效 取舍 的 一 个 重要 途径 。 所 谓 热 点 减 量化 ， 是 指数 据 单元 目 沿 活 后 ， 


在 系统 层面 出 现 的 帕 索 托 最 优 状 态 。 帕 索 托 最 优 十 资源 分 配 的 一 种 理 
想 状 态 ， 是 公平 与 效率 的 “理想 王国 "”。 热 点 减 量 化 通过 目 激 活 步 又 ， 
对 数据 单元 活路 状态 进行 清晰 的 层次 划分 ， 并 以 此 为 依据 ， 挑 移出 更 
具 价 值 的 数据 单元 进行 分 机 。 通 过 模仿 人 脑 筛选 信息 的 遗 乐 机制， 借 
鉴 大 数据 信息 取 人 省 的 方式 方法 ， 结 合 人 工 状 能 时 代 当 下 的 需求 ， 将 遗 
瑟 因 子 作为 热点 城 量 化 的 一 个 结构 性 要 素 纳 入 分 析 系 统 ， 从 而 寻求 在 
数据 分 析 中 实现 以 目 然 遗 起 为 要 件 的 信息 取舍 。 


第 一 节 
遗忘， 是 为 了 更 好 的 记忆 


(一 ) 人 脑 的 记忆 存储 极限 


大 脑 是 由 神经 元 构成 的 ， 神 经 细胞 相互 之 间 通 过 神经 突 触 相互 影 
响 ， 形 成 极其 复杂 的 相互 联系 ， 而 记忆 就 是 脑 神经 细胞 之 间 的 相互 呼 
叫 作用 。( 里 所谓“ 记忆 ”是 一 个 复杂 而 宽泛 的 概念 ， 一 般 人 说 的 记忆 ， 
在 认 知 科学 中 称 作 陈述 性 记忆 ， 这 种 记忆 可 以 说 是 人 类 独 有 的 ， 具 有 
很 强 的 意识 支配 性 。 现 代 神 经 科学 认为 ， 记 忆 是 脑 部 的 神经 元 之 间 通 
过 突 触 联系 所 产生 的 变化 。 通 过 学 习 ， 脑 里 面 的 神经 元 之 间 产 生 一 些 
新 的 连接 ， 就 形成 了 记忆 ， 之 后 如 果 再 受到 与 之 相关 连 的 弱 刺 激 ， 就 
可 以 激活 所 有 相关 的 神经 核 团 ， 在 脑 中 再 现 原来 的 内 容 。 (人 思 


脑 神经 细胞 之 间 的 相互 呼叫 作用 的 维持 时 间 有 些 是 短暂 的 ， 有 些 
是 持久 的 ， 还 有 一 些 介 于 两 者 之 间 。( 时 据 此 ， 科 学 家 将 记忆 分 为 短期 
记忆 、 中 期 记忆 和 长 期 记忆 ， 其 中 ， 短 期 记忆 的 实质 是 大 脑 的 即时 生 
理 生 化 反应 的 重复 ， 而 中 期 和 长 期 的 记忆 则 是 大 脑 细胞 内 发 生 了 结构 
改变 ， 建 立 了 国定 联系 。 比 如 怎么 骑 自 行车 就 是 长 期 记忆 ， 即 使 多 年 
不 骑 ， 人 们 仍 能 路 上 车 就 走 ， 中 期 记忆 是 不 牢固 的 细胞 结构 改变 ， 只 
有 * 曲 不 离 口 、 拳 不 离 手 ”， 反 复 加 以 巩固 ， 才 会 变 成 长 期 记忆 ;， 短期 
记忆 是 数量 最 多 且 最 不 牢固 的 记忆 ， 一 个 人 每 天 只 将 1% 的 记忆 保留 下 
来 。 


人 类 的 大 脑 极 其 复杂 ， 它 包含 了 1 000 亿 个 神经 元 ， 神 经 元 是 大 脑 
具备 记忆 功能 的 物质 基础 。 所 谓 的 神经 元 是 一 种 特殊 的 细胞 ， 长 有 成 


于 上 万 个 触手 ， 各 个 神经 元 的 触手 相互 通 连 ， 形 成 一 种 神经 元 回路 ， 
类 似 于 电脑 内 存 条 里 的 电子 回路 ， 只 不 过 要 复杂 得 多 。 每 个 神经 元 通 
过 突 触 ， 与 其 他 神经 元 存在 上 干 个 联结 ， 以 传递 信息 ， 这 使 得 一 个 人 
的 大 脑 中 大 约 有 1 000 万 个 神经 联结 。 人 们 于 过 认为 ， 我 们 仅 使 用 了 大 
脑 很 小 的 一 部 分 ， 但 现实 与 之 相反 ， 健 康 人 类 大 脑 中 神经 元 与 突出 的 
整个 网 络 都 是 活跃 的 。 但 是 ， 如 采 我 们 想 要 记 住 接收 到 的 每 个 感觉 刺 
激 的话 ， 大 脑 这 种 惊人 的 、 巨 大 网 格式 的 加 工 与 存储 能 力 将 会 被 迅速 
淹没 。 


众所周知 ， 早 期 人 类 存储 信息 是 通过 大 脑 来 完成 ， 大 脑 记忆 有 征 人 
类 存储 信息 的 最 主要 方式 。 我 们 的 大 脑 是 神经 系统 的 中 枢 ， 在 学 习 活 
动 中 ， 大 脑 十 进行 学 习 的 最 主要 的 器 官 ， 是 积 毗 知识 经 验 的 总 存储 
库 。 关 于 大 脑 记忆 存储 研究 的 具体 讨论 ， 要 从 “大 脑 存 储 记 忆 原 理 ” 开 
始 。 大 脑 能 储存 记忆 是 利用 了 数字 信和 号 和 模拟 信号 相 结 合 的 方式 ， 可 
以 称 市 负电 的 钠 离子 的 间 欣 性 流动 为 数字 信号 ， 因 为 这 种 信号 只 要 产 
生 束 不 会 消失 或 减弱 ， 而 各 个 伸 经 元 连接 处 是 有 大 约 十 万 分 之 一 坚 米 
间隙 的 ， 这 里 的 信号 传输 属于 模拟 信和 号。 根据 情况 不 同 ， 传 输 情 况 也 
有 所 不 同 ， 人 类 的 大 脑 束 是 利用 这 种 数字 信号 和 模拟 信号 的 无 限 组 合 
产生 了 千差万别 的 记忆 。 


许多 神经 科学 家 认为 ， 日 第 生活 中 所 发 生 的 事情 被 转化 成 记忆 临 
时 保存 到 人 脑 的 海马 体 中 ， 再 由 海马 体 将 记忆 转移 到 新 大 脑 皮 质 存 
储 ， 这 种 形式 为 长 期 记忆 。 这 个 天 于 记忆 存储 转移 的 理论 目前 受到 了 
挑战 ， 美 国 布 朋 大 学 神经 科学 家 马 雅克 ' 梅 达 和 话 贝 尔 生理 学 或 医学 交 
获得 者 、 生 理学 家 伯 特 - 院 元 曼 共 同 主持 了 一 项 新 的 研究 ， 找 到 了 人 类 
海马 体 和 新 大 脑 皮 质 进行 “对 话 ” 的 最 好 证 据 ， 表 明了 记忆 存储 是 通过 
一 种 惊人 的 “互动 ”来 实现 的 。 这 种 惊人 的 “互动 ”并 不 是 海马 体 以 一 
种 “ 脑 细胞 暴发 ”的 方式 同 新 大 脑 度 质 上 传记 忆 ， 而 是 新 大 脑 皮 质 操控 
着 它 和 海马 体 之 间 的 “对 话 ”。 


人 脑 记 忆 存 储 是 肯定 不 会 放 在 真空 中 的 ， 那 么 人 类 能 够 存储 多 人 少 
记忆 呢 ? 如 果 这 些 记忆 用 GB、TB 之 类 的 单位 衡量 ， 大 概 等 于 多 大 的 
硬盘 容量 呢 ? 2014 年 3 月 《 目 然 》 杂 志 有 一 骗 文 章 ， 分 析 称 小 鼠 大 脑 的 
13 个 神经 元 的 结构 ， 数 据 存 储量 高 达 1TB。 虽 然 一 个 重 约 1.4 千 殉 的 成 
年 人 大 脑 有 大 约 1 000 亿 个 神经 元 ， 但 这 些 神经 元 是 否 都 用 来 存储 呢 ? 
目前 ， 科 学 研究 已 经 表明 ， 这 1 000 亿 个 神经 元 在 我 们 的 大 脑 中 并 没有 
全 部 用 于 存储 。 


从 生物 特性 而 言 ， 虽 然 人 类 大 脑 中 的 神经 元 并 没有 全 部 被 用 来 存 
储 记忆 ， 但 是 大 脑 存 储 数据 的 容量 是 非常 庞大 的 。 有 神经 科学 家 推算 
分 析 ， 人 类 大 脑 中 的 1 000 亿 个 神经 元 即使 只 有 1/10 用 于 存储 ， 也 在 使 
用 高 达 100 亿 个 神经 元 。 小 白鼠 的 13 个 神经 元 系统 就 存储 了 1TB 的 数 
据 ， 那 么 人 类 大 脑 存储 容量 相当 于 7.6 亿 TB 的 数据 。 即 使 用 当前 最 大 容 
量 8TB 的 硬盘 来 存储 这 些 数据 ， 也 需要 9 500 万 块 硬盘 ， 如 果 将 这 些 硬 
(一 个 约 为 41 训 米 ) 把 起 来 ， 大约 有 3 895 000 米 高 ， 相 当 于 4 703 座 
世界 最 高 的 迪拜 塔 (828.14 米 ) 的 高 度 。( 人 四) 


大 脑 存 储 信息 容量 的 惊人 能 力 表 明了 人 类 记忆 的 存储 量 是 非常 巨 
大 的 ， 甚 至 从 理论 上 来 说 ， 我 们 认为 大 脑 对 记忆 的 存储 不 可 能 存在 极 
限 。 这 种 关于 大 脑 存储 记忆 无 限 的 理论 ， 是 不 是 意味 着 在 这 个 信息 大 
爆炸 的 时 代 ， 人 类 的 大 脑 就 不 会 超人 负荷 运载 呢 ? 事实 上 ， 在 信息 技术 
和 通信 技术 日 新 月 异 的 今天 ， 只 要 用 开眼 睛 我 们 束 可 以 看 到 信息 ， 也 
可 以 说 信息 是 无 孔 不 入 ， 听 到 的 、 看 到 的 事物 都 包含 着 信息 。 当 信息 
技术 和 通信 技术 以 高 速度 发 展 并 为 我 们 提供 信息 之 时 ， 我 们 大 脑 的 记 
忆 存 储 极 限 也 越 来 越 明 显 ( 见 图 6-1) 。 限 制 我 们 的 已 经 不 再 是 技术 ， 
而 是 我 们 目 身 的 生物 学 特性 。 
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图 6-1 人 类 大 脑 记忆 存储 极限 示意 图 


据 权 威 媒体 报道 ， 现 代 人 类 每 天 输入 的 信息 量 足 以 让 通常 的 笔记 
本 电脑 超人 负 奏 运转 一 周 ， 我 们 的 大 脑 正 承 受 着 超 量 信息 的 人 负荷。 人 类 
每 天 至 少 遇 到 34GB 的 信息 ， 通 过 电子 邮件 、 网 页 、 电 视 和 其 他 媒体 ， 
我 们 每 天 淹没 在 近 10 万 字 的 信息 中 ， 相 当 于 每 秒 23 个 词 。 四 然而 ， 对 
我 们 大 部 分 人 而 言 ， 在 某 种 范围 内 ， 我 们 大 脑 接收 到 的 98% 的 信息 都 
征 无 用 的 。 这 种 无 用 信息 如 果 都 被 存储 在 我 们 头脑 中 的 话 ， 我 们 的 天 
脑 将 承受 超 量 信息 。 换 句 话 说， 信息 超载 有 一 天 将 会 使 我 们 大 脑 的 记 
忆 和 存储 达到 极限 。 


(二 ) 记忆 的 选择 性 封存 


大 脑 记忆 的 选择 性 封存 (或 称 “ 休 眠 ”) 就 像 动物 冬 眼 一 样 ， 只 
有 适宜 的 外 部 环境 束 将 苏醒 。 有 科学 家 认为 ， 在 大 脑 记忆 的 价值 被 特 
定 主体 利用 殉 尽 之 时 ， 只 是 这 些 记忆 的 某 一 方面 用 途 的 价值 被 使 用 ， 
并 不 意味 着 这 些 记忆 没有 任何 价值 ， 可 能 由 于 主体 或 主体 记忆 需求 的 
改变 ， 也 可 能 由 于 其 关联 记忆 的 出 现 ， 使 其 成 为 非常 有 价值 的 记忆 或 
者 征 记 忆 集合 中 的 关键 记忆 。 也 束 是 说 在 特定 时 间 和 衬 间 内 ， 对 于 特 
定 主体 ， 大 脑 记 忆 的 价值 出 现 选 择 性 休眠 状态 。 


“ 休 眼 ”一 词 ， 与 “区 醒 " 相 对 。 在 不 适宜 的 外 部 环境 中 ， 某 些 动 杆 
物 的 生命 活动 极度 减少 ， 此 时 为 了 降低 能 量 损耗 ， 其 进入 异 睡 状态 ; 
一 旦 外 部 环境 改善 ， 适 宜生 存 和 生活 ， 其 将 苏醒 过 来 ， 照 常生 长 、 活 
动 。 所 谓 大 脑 记忆 休眠 ， 就 是 在 大 脑 记忆 环境 的 局 限 下 (比如 关联 记 
忆 不 足 、 主 体 记忆 需求 消失 ) ， 对 特定 主体 而 言 ， 某 些 记 忆 的 价值 极 
度 桶 退 ， 但 并 没有 把 这 些 记忆 请 除 ， 而 是 将 这 些 记忆 封存 ， 此 时 这 些 
记忆 进入 “ 休 眼 ?状态 ， 一 旦 大 脑 记忆 环境 改善 (比如 关联 记忆 充足 、 
主体 新 的 记忆 需求 出 现 ) ， 这 些 记忆 的 价值 “苏醒 *"， 并 重新 被 利用 ， 
满足 主体 新 的 记忆 需求 。 


大 脑 记忆 价值 的 休眠 是 客观 存在 的 ， 不 以 人 的 意志 为 转移 。 但 被 
特定 主体 满足 了 特定 需求 之 后 ， 记 忆 有 两 条 : 一 是 清除 ， 使 其 走向 记 
忆 生 命 的 终点 一 一 记忆 消亡 ， 二 是 保存 ， 依 靠 大 脑 记忆 存储 延续 记忆 
生命 ， 使 其 处 于 记忆 休眠 状态 ， 等 待 其 价值 的 复苏 ， 被 再 利用 ， 实 现 
记忆 增值 。 记 忆 消 亡 和 记忆 休眠 属于 此 消 彼 长 的 关系。 


言 尽 的 真实 价值 训 像 漂浮 在 海洋 中 的 冰山 ， 第 一 眼 只 能 看 到 冰山 
一 角 ， 而 绝 大 部 分 则 隐藏 在 表面 之 下 。 正 如 经 济 学 家 所 谓 的 非 竞 争 性 
一 样 ， 大 脑 记忆 不 同 于 其 他 物质 性 产品 ， 一 个 人 对 其 使 用 不 会 影响 到 
其 他 人 的 使 用 ， 大 脑 记忆 的 价值 也 不 会 随 厦 使 用 而 有 所 损耗 。 大 脑 记 
忆 的 价值 也 并 不 限定 于 特定 主体 或 用 还， 它 可 以 为 了 同一 目的 锌 使 用 
多 次 ， 也 可 以 用 于 不 同 的 方面 。 


大 脑 记忆 由 低级 阶段 向 高 级 阶段 的 每 一 次 跨越 ， 部 离 不 开 人 类 的 
价值 创造 活动 ， 并 为 大 脑 记忆 注入 新 的 价值 。 老 化 的 大 脑 记忆 或 基本 
用 途 价值 完成 的 记忆 被 加 入 人 类 的 创造 活动 ， 也 会 为 其 注入 新 的 价 
值 ， 或 激发 其 休眠 的 价值 。 更 何况 大 部 分 被 认定 已 经 爱 退 或 死亡 的 大 
脑 记 忆 并 不 是 没有 价值 ， 而 是 因为 记忆 很 难 被 人 们 获取 ， 或 是 被 大 脑 
选择 性 地 过 滤 掉 。 像 休眠 的 火山 一 样 ， 它 拥有 巨大 的 存储 着 的 或 潜在 
的 能 量 ， 只 是 处 于 休眠 状态 ， 在 未 来 的 某 个 时 刻 能 量 总 会 爆发 。 同 


理 ， 记 忆 的 某 一 特定 的 基本 用 途 完 成 后 ， 记 忆 的 价值 仍 有 ， 只 是 处 于 
休眠 状态 ， 束 像 休 眠 的 火山 一 样 ， 直 到 它 补 再 利用 并 再 次 实现 新 的 价 
值 。 记 忆 价 值 应 该 十 其 各 种 用 途 价值 的 总 和 ， 而 没有 被 实现 的 用 途 价 
值 便 是 记忆 的 潜在 价值 ， 也 就 十 这 部 分 潜在 价值 处 于 休眠 状态 。 潮 在 
价值 的 内 涵 说 明 ， 大 脑 应 尽 可 能 多 地 收集 记忆 并 尽 可 能 长 时 间 地 将 其 
保存 。 


依附 性 和 可 存储 性 是 记忆 的 基本 特征 ， 这 两 个 特征 都 说 明 记忆 必 
须 依 附 于 一 定 介质 而 存在 ， 记 忆 只 有 首先 被 存储 了 ， 之 后 才能 被 利用 
和 继承 。 记 忆 存 储 是 记忆 休眠 的 前 提 条 件 和 物质 基础 ， 没 有 记忆 的 存 
储 ， 也 惑 不 能 被 再 利用 ， 记 忆 也 随 存储 介质 的 销 芭 而 消亡 ， 记 忆 休 了 眼 
也 就 无 从 谈 起 。 因 为 存储 空间 的 不 足 ， 许 多 资源 的 生命 进程 被 人 为 终 
止 。 记 忆 存 储 技术 的 出 现 与 进步 对 记忆 休眠 的 出 现 及 记忆 休眠 程度 的 
提高 起 到 决定 性 作用 。 


记忆 休眠 的 目的 古 对 其 再 利用 ， 使 其 实现 记忆 增值 。 要 实现 记忆 
增值 必须 解决 两 个 方面 的 问题 ， 一 古 记忆 资源 的 存 取 ， 二 是 记忆 资源 
的 建设 和 开发 ， 即 记忆 处 理 。 对 特定 主体 而 言 ， 处 于 记忆 休眠 状态 的 
记忆 大 多 属于 老化 记忆 ， 记 忆 价 值 极 低 ， 如 采 没 有 与 其 他 关联 记忆 再 
组 织 ， 其 将 长 期 休眠 。 记 忆 处 理 对 于 处 于 记忆 休 眼 状态 的 记忆 能 否 再 
利用 及 其 利用 程度 起 着 主导 作用 ， 即 记忆 复苏 的 出 现 及 程度 与 记忆 组 
织 和 处 理 技术 的 发 展 妃 轧 相 关 。 记 忆 人 存储 技术 和 记忆 处 理 撤 术 是 两 个 
最 关键 的 记忆 技术 ， 也 就 是 说 关键 记忆 技术 的 发 明和 进步 影响 着 人 类 
对 记忆 的 处 置 一 一 清除 或 存储 ， 同 时 也 影响 着 记忆 的 再 利用 ， 即 关键 
记忆 技术 的 出 现 和 发 展 与 记忆 休眠 和 记忆 复苏 的 出 现 及 其 程度 有 着 密 
切 天 系 。 


结构 决定 功能 ， 功 能 反映 结构 的 状态 。 就 如 同 金 刚 石 与 石 礁 都 钙 
矶 的 同 素 异形 体 ， 其 硬度 却 有 天 壤 之 别 ， 其 本 质 原因 整 古 碳 原 子 排列 
顺序 不 同 。 在 记忆 集合 中 ， 记 忆 目 身 的 结构 及 记忆 相互 之 间 的 结构 都 


决定 了 记忆 集合 的 组 成 ， 同 样 也 惑 影响 了 其 功能 和 效用 。 除 了 必 不 可 
少 的 几 种 反应 物质 ， 在 一 个 化 学 反应 中 ， 还 需要 发 生 该 反应 的 场所 
(比如 试管 、 烧 杯 和 烧瓶 ) 、 加 热 器 及 催化 剂 等 反应 条 件 。 


由 于 大 脑 存 储 信 息 的 多 天 不 足 ， 面 对 海量 信息 ， 人 类 只 能 望 洋 兴 
叹 ， 只 会 考虑 如 何 清理 所 谓 的 无 用 记忆 ， 实 际 被 清理 的 无 用 记忆 强 合 
着 大 量 的 价值 ， 记 忆 生 命 大 多 面临 消亡 ， 很 难得 到 延续 。 在 大 数据 技 
术 的 率 引 下 ， 记 忆 存 储 与 记忆 处 理 并 重 ， 记 忆 再 利用 特别 古老 化 记忆 
的 再 利用 成 为 可 能 ， 由 此 记忆 会 出 现 多 次 或 无 限 次 生命 延续 的 现象 


记忆 在 首次 被 控 据 利用 基本 价值 之 后 ， 仍 存在 很 多 潜在 价值 ， 但 
由 于 记忆 技术 和 记忆 意识 ， 大 多 被 人 为 地 画 上 记忆 生命 的 句号 ， 面 对 
与 日 俱 增 的 海量 记忆 而 感觉 无 记忆 可 用 ， 或 者 找 不 到 自己 所 需要 的 记 
忆 。 记 忆 利 用 一 记忆 休眠 一 休眠 复苏 一 记忆 再 利用 一 记忆 休眠 一 记忆 
复苏 ， 这 个 循环 在 传统 记忆 技术 条 件 下 不 存在 或 者 只 会 循环 几 次 ， 而 
在 大 数据 时 代 ， 当 我 们 拥有 了 释放 记忆 隐藏 价值 的 理念 和 工具 ， 将 处 
于 记忆 休眠 的 大 量 老化 记忆 再 开发 再 利用 ， 这 个 循环 不 再 是 几 次 或 者 
几 十 次 ， 而 是 无 限 次 。 


(三 ) 遗 坪 也 是 一 种 学 习 


遗 生 是 人 类 的 天 性 。 从 古 至 今 ， 人们 不 断 莹 试用 本 能 、 语 言 、 绘 
画 、 文 本 、 媒 体 、 介 质 来 记 住 知识 。 千 年 以 来 ， 遗 起 始终 比 记 忆 简 
单 ， 成 本 也 更 低 。 人 四 遗忘 是 记忆 中 的 一 个 特殊 功能 ， 人 类 的 感觉 器 官 
接收 到 的 信息 非常 多 ， 而 遗 坪 使 得 人 只 保留 重要 的 、 相 关 的 信息 。 记 
忆 心 理学 家 指出 ， 遗 起 并 不 古 一 种 疾病 ， 适 当 的 遗 坪 对 个 体 来 讲 是 必 
要 的 ， 并 且 也 有 利于 个 体 的 身心 健康 。 在 许多 情境 中 ， 努 力 记 住 所 有 


言 思 的 回忆 所 呈现 出 来 的 效果 是 非常 老 的 ， 如 采 能 够 学 会 遗 坏 比 拥 
有 “记忆 术 ” 更 有 价值 。 


根据 目前 大 脑 研究 者 对 解释 记忆 的 生理 基础 所 提出 的 理论 ， 人 类 
在 记忆 的 时 候 ， 神 经 元 之 间 会 建立 新 的 特异 的 突 触 联 系 。 当 人 要 记忆 
多 件 事物 的 时 候 ， 这 些 单个 的 突 触 联 系 就 会 形成 “网络 ”。 网络 带 来 的 
好 处 是 ， 当 信息 需要 被 读 取 的 时 候 ， 过 程 的 切入 点 并 不 一 定 是 该 信息 
本 身 ， 还 可 以 是 该 网 络 上 的 其 他 节点 。 再 遵循 这 个 切入 节点 与 所 需 信 
息 的 节点 之 间 的 连接 (该 过 程 被 称 为 联想 ) ， 大 脑 就 可 以 同样 得 到 需 
要 的 记忆 信息 ， 并 且 将 它 装载 到 “内 存 "? 中 ， 这 也 解释 了 单一 事件 与 其 
他 事件 建立 的 联系 越 多 ， 就 越 不 容易 被 遗忘 。( 电 


人 类 大 脑 不 像 摄 影 机 那样 机 械 记录 ， 记 忆 的 目标 并 非 随 着 时 间 推 
移 去 传递 最 准确 的 信息 ， 而 征 通过 掌握 最 有 价值 的 信息 来 指导 和 优化 
智能 决策 ， 和 起 记 或 许 更 有 助 于 人 们 日 后 做 出 最 佳 判断 。 和 人们 总 认为 ， 
好 的 记忆 力 整 是 永远 不 会 坪 记 东西 ， 能 够 长 时 间 清 晰 地 记 住 更 多 信 
居 。 心 理学 家 的 观点 却 正 好 相反 ， 他 们 认为 大 脑 正 积极 努力 地 起 记 ， 
扑 记 东 西 也 许可 以 帮助 我 们 “操纵 ”一 个 随机 和 不 断 变 化 的 世界 。 志 记 
不 相干 的 细节 是 大 脑 的 一 项 重要 工作 ， 可 以 让 它 把 注意 力 集 中 在 那些 
有 助 于 现实 决策 的 信息 上 面 。 


好 记性 不 等 于 记 住所 有 事情 。 遗 忘 不 仅 有 助 于 我 们 在 单一 信息 里 
过 度 泛 化 ， 也 有 助 于 我 们 驾驭 这 个 从 未 止步 的 世界 。 如 果 大 脑 拥 有 完 
善 的 记忆 ， 那 么 不 再 遗忘 的 后 果 比 人 们 建立 并 维护 多 年 的 声誉 遭受 一 
次 正面 攻击 的 后 果 更 深远 ， 也 更 让 人 苦恼 。 如 果 我 们 过 去 所 有 的 行 
为 ， 无 论 是 否 违法 ， 都 一 直 存在 ， 那 么 当 我 们 进行 思考 与 决策 时 ， 怎 
样 才能 从 自己 的 过 去 中 解脱 出 来 呢 ? 完善 的 记忆 会 使 我 们 对 待 他 人 像 
对 待 自己 那样 不 宽容 吗 ? 个) 


和 遗忘 是 一 种 自然 生物 机 制 ， 通 过 删除 记忆 去 除 不 必要 的 信息 ， 我 
们 才 得 以 维持 正常 的 神经 系统 。 从 生物 学 的 角度 看 ， 遗 忘 可 以 减轻 大 
脑 的 负担 ， 降 低 脑 细 胞 的 消耗 速度 。 我 们 的 大 脑 细胞 以 每 天 10 万 个 左 
右 的 速度 消亡 ， 而 如 果 我 们 不 能 忘记 那些 不 开心 的 事情 ， 脑 细胞 的 死 
亡 速度 会 增加 几 倍 甚至 几 十 倍 ， 这 就 大 大 增加 了 大 脑 的 负担 。 遗 忘 能 
够 减少 这 样 的 消耗 ， 让 自己 不 那么 痛苦 。 忘 掉 信息 中 不 重要 的 部 分 ， 
可 以 减少 信息 的 宛 杂 度 ， 从 而 减轻 记忆 和 认 知 负担 ， 这 就 相当 于 清除 
手机 缓存 ， 删 除 不 常用 的 文档 ， 腾 出 更 多 空间 。 电 


科学 人 研究 发 现 ， 新 增 的 神经 元 是 偷 走 大 脑 记忆 的 “ 真 凶 ”。 哺 乳 动 
物 在 成 长 过 程 中 ， 大 脑 中 有 两 个 其 他 动物 没有 的 区 域 在 不 断 地 产生 神 
经 元 ， 海 马 环 路 是 其 中 一 个 。 新 的 神经 元 在 海马 环 路 中 不 断 生 成 ， 激 
烈 地 争夺 着 “地 弄 ?”， 改 变 预 先 存在 的 神经 元 连接 ， 建 立新 的 神经 元 连 
接 ， 严 重 扰乱 了 储存 旧 记 忆 的 大 脑 电 路 。 这 些 早期 的 连接 大 多 数 会 
被 < 修剪 掉 "”， 导 致 神经 元 连接 被 毁坏 ， 使 这 部 分 记忆 被 遗忘 。 人 四 


对 无 价值 的 旧 信 息 或 不 相关 的 信息 的 遗 环 主 要 通过 有 意 遗 扎 范 式 
来 研究 四 ， 有 意 遗 忘 的 机 制 之 一 是 削弱 或 消除 编码 记忆 中 神经 元 之 间 
的 突 触 连接 ， 强 行 让 人 遗 起 。 关 于 有 意 遗 起 的 机 制 有 多 种 解释 ， 比 如 
双 过 程 理 论 、 注 意 抑 制 理 论 、 编 码 理论 和 提取 抑制 理论 ， 这 些 理论 从 
不 同 角 度 解释 了 有 意 遗 坪 的 机 制 。 其中， 编码 理论 对 有 意 遗 起 效应 的 
解释 得 到 了 很 多 的 实证 支持 。 


编码 理论 又 称 选择 性 复述 理论 ， 有 选择 的 复述 是 造成 记忆 差异 的 
原因 。 当 记 住 指示 符 出 现时 ， 被 试 会 继续 复述 刚才 呈现 过 的 项 目 ， 当 
和 遗忘 指示 符 出 现时 就 不 再 复述 ， 这 就 造成 了 记忆 项 的 编码 比 遗 忘 项 的 
编码 更 加 精细 ， 这 种 有 选择 的 复述 会 形成 一 种 注意 选择 机 制 ， 即 当 被 
试 意识 到 一 些 项 目 要 被 忘记 时 ， 他 们 会 尽 最 大 努力 记 住 要 求 记忆 的 项 
目 ， 而 在 要 求 遗忘 的 项 目 上 花费 最 小 的 精力 。 包 


遗忘 不 仅 对 人 类 很 重要 ， 对 其 他 生物 也 非常 重要 ， 甚 至 可 以 说 对 
所 有 生命 都 很 重要 。 实 际 上 ， 记 忆 困 难 可 能 是 热力 学 第 二 定律 的 一 个 
隐 含 结果 。 热 力学 第 二 定律 是 最 基本 的 自然 规律 之 一 ， 它 说 明了 宇宙 
(作为 一 个 热力 学 系统 ) 的 随机 性 必然 会 增 大 ， 对 此 我 们 毫 无 办 法 。 
当然 ， 我 们 能 够 人 为 地 消除 一 些 随机 性 ， 比 如 通过 将 气体 分 子 放 回 密 
闭 的 容器 。 但 是 这 么 做 需要 更 多 的 努力 ， 用 物理 学 家 的 术语 来 讲 ， 这 
需要 能 量 ， 如 此 便 导 致 了 比 我 们 开始 时 更 大 的 整体 随机 性 。 不 是 容器 
内 部 的 随机 性 ， 而 是 容器 外 部 的 随机 性 。 创 建 记忆 是 在 我 们 的 大 脑 内 
部 制造 某 种 秩序 ， 这 也 需要 能 量 。 另 外 ， 遗 忘 也 可 以 是 随机 的 ， 不 需 
要 高 耗 能 的 排序 。 因 此 ， 从 根本 上 讲 ， 物 理学 也 告诉 我 们 ， 记 忆 不 像 
(随机 的 ) 遗忘 ， 往 往 是 需要 付出 代价 的 。 人 后) 
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第 二 节 
删除 ， 数 据 取舍 之 道 


(一 ) 数字 记忆 是 生物 记忆 的 延伸 


有 史 以 来 ， 对 人 类 而 言 ， 遗 忘 一 直 是 常态 ， 而 记忆 才 是 例外 。 舍 ) 
然而 ， 在 信息 时 代 ， 我 们 在 每 天 的 工作 和 生活 中 都 会 接触 到 大 量 的 信 
息 ， 这 些 信息 来 自学 校 、 工 作 单位 、 医 院 、 超 市 、 酒 店 等 。 信 息 类 型 
也 是 多 种 多 样 ， 包 括 文字 、 图 像 、 声 音 、 视 频 等 。 由 于 我 们 的 大 脑 对 
信息 遗忘 的 这 种 生物 属性 ， 实 际 上 ， 只 有 很 少 的 一 部 分 信息 能 够 被 保 
存 下 来 ， 另 外 一 些 则 是 以 纸 质 或 是 数字 形式 保存 。 


事实 上 ， 在 这 个 信息 爆炸 的 时 代 ， 人 们 都 想 获 得 更 好 、 更 全 面 的 
记忆 ， 项 望 能 够 在 需要 的 时 候 立 即 清晰 地 回忆 起 过 去 所 发 生 的 事件 ， 
因为 这 会 给 我 们 的 生活 和 工作 提供 更 多 的 便利 。 例 如 ， 当 患者 因 过 敏 
去 医院 束 诊 时 ， 能 立即 准确 地 告诉 医生 过 去 一 周 吃 过 的 食物 ， 当 文学 
研究 者 想 要 了 解 莎士比亚 的 生平 时 ， 只 需要 人 简单 地 打开 他 的 数字 化 记 
忆 便 可 知晓 详细 信息 。 为 了 减少 记忆 遗 坪 发 生 的 概率 ， 人 们 试图 通过 
各 种 辅助 措施 来 改善 这 一 现状 ， 如 商场 货架 上 摆 放 的 各 类 增强 记忆 的 
保健 品 。 与 增强 记忆 相关 的 产业 规模 也 在 不 断 扩大 ，2007 年 ， 美 国 “ 健 
脑 计 划 ” 和 “神经 软件 * 的 相关 市 场 规模 已 经 达到 2.25 亿 美元 ， 各 式 帮 助 
记忆 的 图 书 、 记 忆 术 、 保 健 品 、 计 算 机 软件 和 设备 层出不穷 。 


想 有 要 拥有 更 完善 的 数字 化 记忆 这 一 想法 由 来 已 入， 早 在 1945 年 计 
算 机 还 是 一 个 刚 发 明 不 久 的 庞然大物 时 ， 类 国 科 学 家 融 设 想 过 一 种 人 
们 可 以 保存 目 己 全 部 信息 的 个 人 媒体 库 。 个 人 媒体 库 的 多 数 内 容 都 存 


储 在 缩微 胶卷 上 ， 通 过 不 断 地 插入 胶卷 以 增加 新 内 容 。 各 类 图 书 、 
请、 期 刊 和 报纸 都 通过 此 方法 在 个 人 媒体 库 中 输入 和 输出 ， 丙 业 信 和 男 
也 不 例外 。 


科学 家 的 设想 在 今天 看 来 似乎 就 是 一 台 集 成 了 麦克 风 、 多 显示 
屏 、 扫 描 仪 等 设备 的 台式 电脑 。 随 着 数字 技术 与 全 球 网 络 的 发 展 ， 数 
字 化 时 代 的 到 来 使 得 保存 全 面 的 数字 化 记忆 成 为 可 能 和 现实 。1995 
年 ， 比 尔 : 兰 敬 在 其 《未 来 之 路 》 中 也 写 道 : “总 有 一 天 ， 我 们 能 够 记 
录 所 见 所 疗 的 一 切 。”1998 年 ， 美 国 计 算 机 科学 家 将 全 面 数字 化 记忆 付 
诸 实 践 ， 创 建 了 世界 上 第 一 台 存 储 “ 一 个 人 一 生 中 所 有 信息 ”的 信息 设 
备 ， 该 信息 设备 使 用 可 罕 戴 相机 、 录 音 笔 、GPS (全 球 定位 系统 ) 等 
0 标志 着 全 面 数 子 化 时 代 的 到 来 。 


全 面 数字 化 时 代 ， 人 们 努力 想 要 记 住 的 信息 属于 不 同 的 形式 ， 包 
括 数 字形 式 和 非 数字 形式 。“ 数 字 化 记忆 ? 指 运用 多 种 数字 存储 设备 将 
人 类 社会 生活 中 的 各 种 信息 都 数字 化 并 保存 起 来 。 相 对 于 生物 记忆 ， 
数字 化 记忆 可 以 看 作对 生物 记忆 的 巨大 延伸 。 为 了 更 好 地 了 解数 字 化 
记忆 的 延伸 特性 ， 有 必要 比较 一 下 生物 大 脑 的 记忆 存储 方式 与 计算 机 
存储 数据 方式 之 间 的 差异 。 


生物 大 脑 的 记忆 是 通过 神经 元 或 神经 细胞 之 间 的 相互 关联 的 模式 
存储 的 ， 而 计算 机 则 依靠 一 系列 微 电 子 元 件 的 开局 或 关闭 来 傈 存 数 
据 。 大 脑 和 计算 机 都 能 存储 信息 、 处 理 信息 ， 并 能 根据 信息 的 状态 决 
定 具 体 的 行动 步骤 。 基 于 这 些 原 理 ， 我 们 可 以 认为 这 两 个 系统 都 拥有 
记忆 能 力 ， 但 这 种 相似 性 仅 停留 在 粗略 的 表层 。 一 旦 揭 开 其 神秘 的 面 
纱 ， 我 们 束 会 发 现 生物 记忆 与 数字 化 记忆 之 间 存 在 巨大 的 差异 。 


作为 大 脑 的 所 有 者 ， 人 类 总 认为 记忆 是 一 种 孤立 的 资源 ， 但 这 只 
是 大 脑 呈 现 的 一 种 假象 。 人 研究 生物 记忆 的 科学 家 们 将 人 类 记忆 描述 为 


三 种 系统 ， 即 程序 记忆 、 语 义 记 忆 和 情景 记忆 。 其 中 ， 对 程序 记忆 来 
说 ， 任 何 辅助 都 无 助 于 人 类 加 强 这 方面 的 记忆 。 但 是 ， 人 类 的 记忆 和 
情景 模式 能 通过 数字 化 记忆 扩展 。 众 所 周知 ， 生 物 记忆 出 错 在 所 难 
免 ， 但 它 的 严重 性 恐怕 还 是 要 超 乎 我 们 的 想象 。 神 经 科学 家 的 研究 早 
已 表明 ， 那 些 情景 记忆 会 渐渐 失真 ， 与 真实 的 情况 相 比 ， 错 误 的 记忆 
似乎 更 为 清晰 。 包 


在 全 面 数 子 化 时 代 ， 计 算 机 能 够 区 轻 束 熟 地 将 所 有 事物 都 精确 地 
记 杂 在 数字 化 记忆 库 中 ， 大 脑 却 无 法 做 到 这 一 点 。 大 脑 在 记忆 某 件 事 
情 时 ， 它 包含 的 记忆 实际 上 只 征 碎片 化 的 、 令 人 印象 深刻 的 片段 。 之 
后 ， 在 需要 重新 检索 该 段 记忆 时 ， 它 会 使 用 一 个 大 框架 整合 原 有 的 片 
段 集合 。 于 是 ， 当 这 些 记 忆 再 次 浮现 于 我 们 的 脑海 中 时 ， 我 们 会 误 以 
为 这 是 一 份 高 保 真 的 记录 。 其 实 ， 对 存储 在 大 脑 中 的 全 部 记忆 而 言 ， 
都 具备 渐进 、 突 变 和 失真 的 可 能 性 ， 只 有 人 少数 内 容 征 干 真 万 确 的 ， 其 
他 部 分 束 像 是 由 一 些 道具 、 布 景 、 群 众 、 演 员 和 影视 素材 组 合 在 一 起 
的 新 的 情景 剧 。 


对 人 类 大 脑 来 说 ， 记 忆 是 例外 ， 遗 忘 是 常态 。 对 计算 机 而 言 ， 记 
忆 是 常态 ， 遗 忘 才 是 例外 。 生 物 记 忆 是 主观 的 、 不 完整 的 、 带 有 情感 
色彩 的 ， 具 备 自我 过 滤 、 主 观 写意 和 可 变 的 特性 ， 数字化 记忆 则 大 为 
不 同 ， 数 字 化 记忆 是 客观 的 、 冷 静 的 、 完 全 陈述 事实 的 ， 数 字 化 记忆 
没有 任何 假象 ， 没 有 丝毫 偏差 ， 具 备 高 度 的 准确 性 。 与 生物 记忆 相 
比 ， 数 字 化 记忆 不 会 困 在 杜 柜 和 土 盒 中 ， 它 们 可 以 在 台式 机 或 大 屏幕 
上 大 放 异 彩 。 它 们 还 可 以 和 我 们 一 起 去 旅行 ， 陪 伴 我 们 ， 让 我 们 再 次 
见 到 那些 我 们 珍爱 的 面孔 ， 重 温 往昔 的 欢声 笑语 。 这 也 就 是 说 ， 数 字 
化 记忆 已 经 成 为 生物 记忆 的 一 种 无 限 延伸 。 


(二 ) 全 面 数字 存储 下 的 信息 失控 


数据 存储 作为 信息 记录 的 主要 方式 ， 是 人 类 于 百年 来 都 在 探索 和 
应 用 的 主题 。 从 5 000 年 前 埃及 人 把 象形 文字 刻 在 石碑 上 开始 ， 人 类 惑 
把 信息 用 抽象 的 方式 ， 以 文字 、 绘画 等 形式 记录 在 特定 的 载体 上 ， 如 
甲骨 、 竹 简 、 纸 张 等 ， 实 现 信息 的 保存 和 传播 。 计 算 机 面世 以 来 ， 人 
类 社会 进入 了 一 个 以 数字 化 为 特征 的 历史 性 阶段 ， 人 们 将 各 种 形式 的 
言 妃 以 数字 的 形式 进行 处 理 、 传 输 和 存储 ， 再 将 其 转换 为 各 种 形式 的 
言 妃 加 以 利用 。 大 规模 的 数字 化 使 得 信息 总 量 皇 爆炸 式 增 长 ， 特 别 走 
互联 网 的 兴起 和 普及 ， 大 大 方便 了 信息 的 流通 交换 。 


无 论 是 个 人 的 数据 资料 、 商 业 运 营 文 件 ， 还 十 保证 国家 和 社会 正 
常 运 转 的 数据 (气象 数据 、 经 济 统计 数据 、 石 油 勘探 数据 等 ) ， 都 离 
不 开 各 种 信息 数据 的 传输 、 处 理 和 存储 。 社 会 数据 的 总 量 在 过 去 几 十 
年 呈现 指数 级 增长 ， 在 短 时 期 内 还 没有 发 现 什 么 因素 能 够 放 绥 这 种 增 
长 速度 。 摩 尔 定律 曾 断 言 ， 处 理 右 的 性 能 会 每 18 个 月 增长 一 倍 。 相 应 
地 ， 通 过 才干 年 的 观察 ， 网 络 市 宽 和 存储 容量 增长 也 都 具有 指数 型 增 
长 的 规律 。 图 灵 交 获得 者 詹姆斯 -格雷 提出 一 个 经 验 定律 . 网络 环境 中 
每 18 个 月 产生 的 数据 量 等 于 在 此 之 前 所 有 数据 量 之 和 。 因 此 ， 对 信息 
存储 的 需求 将 是 无 止境 的 ， 数 字 存 储 技术 在 这 种 强烈 需求 的 碟 动 下 得 
到 了 空前 的 发 展 。 


20 世 纪 40 年 代 初 期 ， 当 数字 处 理 技术 刚刚 开始 起 步 的 时 候 ， 数 字 
存储 的 代价 极其 高 昂 。 第 一 台 成 功 的 商用 计算 机 UNIVAC (通用 自动 
计算 机 ) 的 主 存储 器 有 12 000 个 字符 ( 字 节 ) ， 同 时 一 盒 磁 带 驱 动 着 
它 的 大 容量 存储 器 。 磁 带 是 一 项 很 有 用 的 创新 ， 但 是 其 价格 昂贵 ， 提 
取 数 据 的 速度 也 很 慢 。 一 时 间 ， 人 类 在 数据 的 存储 方面 面临 严峻 的 挑 
战 ， 海 量 数据 存储 也 逐渐 成 为 制约 人 类 社会 经 济 发 展 的 瓶颈 。 

随 着 科学 技术 的 发 展 ， 数 字 存 储量 的 增长 速度 已 经 远 远 大 于 人 类 
目前 存储 资料 的 增长 速度 。 几 十 年 前 ， 出 于 价格 成 本 的 考虑 ， 我 们 需 
要 非常 谨慎 地 考量 到 底 应 该 保存 哪些 信息 。 然 而 ， 最 近 十 几 年 ， 科 技 


和 网 络 在 飞速 发 展 ， 与 此 同时 市 来 了 数字 存储 量 的 大 幅 增加 和 价格 的 
大 幅 下 降 。 由 于 数字 存储 容量 、 所 占 空间 大 小 和 所 需要 的 费用 的 极 大 
改变 ， 在 生活 中 “保存 一 切 ” 成 为 可 能 ， 网 络 和 云 存 储 的 兴起 更 使 得 人 
们 能 够 利用 多 种 设备 从 不 同 的 地 方 记 录 和 管理 保存 的 数字 信息 。 保 存 
完整 的 数字 化 记忆 不 仅 能 够 帮助 我 们 实现 更 完善 、 更 及 时 的 信息 管理 
以 及 满足 信息 需求 ， 而 且 能 够 傈 存 较 为 完整 的 生命 记录 ， 让 我 们 在 虚 
拟 世界 实现 生命 不 朽 。 


当前 ， 数 字 技 术 已 经 从 根本 上 改变 了 能 够 被 记 住 的 信息 内 容 ， 改 
变 了 记 住 信 息 的 方式 ， 也 改变 了 记 住 信息 所 要 付出 的 代价 。 随 着 经 济 
约束 的 消失 ， 我 们 已 经 开始 大 量 增加 存储 到 数字 外 部 存储 絮 中 的 信息 
量 。( 导 数字 存储 器 是 伴随 着 互联 网 技术 的 发 展 和 数字 时 代 的 到 来 而 产 
生 的 新 的 数据 存储 方式 ， 它 的 成 功 问世 为 数字 存储 提供 了 一 种 廉价 而 
可 靠 的 存储 可 能 ， 使 得 当前 数字 存储 成 本 得 以 大 幅度 降低 ， 以 至 于 在 
数字 存储 器 上 存储 信息 ， 即 便 征 全 屏 视 频 ， 比 纸张 、 胶 放 与 磁带 这 类 
模拟 存储 信息 的 方式 还 便宜 ， 这 使 得 我 们 保存 和 生成 海量 信息 成 为 可 


合 巴 
月 


依托 日 益 廉 价 的 数字 存储 船 ， 数 字 化 记忆 以 其 数字 化 、 易 于 提取 
和 全 球 履 次 的 特点 深刻 地 影响 着 人 类 的 生活 。 它 使 得 人 类 能 够 开创 性 
地 利用 巨大 的 数字 信息 资源 ， 形 成 了 一 种 创造 、 再 创造 和 共 吾 的 时 代 
文化 。 数 字 化 记忆 的 超 强 信息 存储 能 力 为 人 类 提供 了 一 种 信息 延续 和 
保存 的 策略 。 与 此 同时 ， 我 们 依然 有 理由 担忧 ， 随 着 大 数据 能 够 越 来 
越 精确 地 预测 世界 的 变化 以 及 我 们 所 处 的 位 置 ， 它 对 我 们 的 隐私 和 决 
策 过 程 也 造成 了 影响 。 如 果 人 缺少 适当 的 数据 管理 规程 ， 包 括 长 期 并 可 
靠 地 进行 适当 的 备份 ， 数 字 化 存储 的 好 处 殉 无 法 完全 显现 出 来 。 正 如 
专家 所 说 ， 不 像 便 盘存 储 空 间 的 成 本 那样 ， 这 些 数据 管理 的 成 本 不 会 
每 隔 一 年 半 到 两 年 就 减少 一 半 。 很 显然 ， 即 便 牢 牢 遵守 这 些 限制 ， 不 
仅 个 人 ， 殊 算 像 公 共 组 织 这 类 私密 的 机 构 也 遭遇 了 永久 而 广泛 的 存储 
造成 的 后 果 。 


数字 化 记忆 存储 不 仅 文 持 了 等 级 森 靖 的 机 构 和 社会 的 控制 ， 还 会 
去 找 求 对 他 们 目 喘 的 支持， 从 而 在 信息 权利 分 配 问 题 上 加 剧 现 有 的 不 
平等 。 其 次 ， 数 字 技 术 提 高 了 便捷 性 ， 但 也 使 人 们 置 于 数字 技术 的 监 
视 下 ，3 引 发 了 隐私 保护 的 危机 。 由 于 数字 化 记忆 的 可 访问 性 和 持久 
性 ， 信 息 权 利 不 仅 从 个 人 手 里 转移 到 一 些 知 名 的 交易 方 手 里 ， 而 且 转 
移 到 了 其 他 不 为 人 知 的 机 构 手 里 。 这 些 数 据 一 旦 上 传 网 络 束 被 水 久保 
存 ， 我 们 也 束 形 失 了 对 信息 权利 的 控制 力 。 


事实 上 ， 数 字 化 存储 在 给 人 们 市 来 生活 与 工作 便利 的 同时 ， 也 因 
其 全 电化 、 强 记忆 的 特性 对 人 们 形成 了 信息 压制 ， 数 字 化 存储 造成 的 
这 种 遗 筷 缺失 导致 了 一 个 “没有 安全 和 时 间 的 未 来 "， 引 发 了 诸多 社会 
问题 。 因 此 ， 依 据 何 种 理念 ， 应 用 何 种 技术 恢复 记忆 的 遗 坪 本 性 、 在 
记忆 与 遗 起 之 间 寻 找平 衡 点 ， 束 成 为 数 子 化 时 代 信 息 取舍 面临 的 核心 
问题 ， 也 成 为 克服 数字 化 时 代 信息 压制 的 主要 进 路 。 


(三 ) 数字 记忆 与 信息 取舍 


处 于 信息 大 爆炸 时 代 ， 信 息 存 储 、 信 息 分 至 和 数据 挖 扎 手 段 可 以 
低 成 本 、 高 效率 地 将 大 量 、 高 速 、 多 样 的 原始 数据 存储 下 来 ， 并 且 可 
以 随时 进行 分 析 和 处 理 。 这 使 人 类 实现 了 多 年 来 一 直 追 寻 的 完整 数字 
化 记忆 状态 成 为 现实 ， 如 今 的 世界 已 经 被 成 功 地 设置 为 记忆 模式 ， 在 
享受 数字 化 记忆 珊 来 的 好 处 时 ， 我 们 依然 不 乏 担 忧 。 数 字 化 记忆 打破 
了 原 有 的 记忆 与 遗 环 的 平衡 ， 使 我 们 失去 了 人 类 最 重要 的 遗 扎 能 力 ， 
对 数字 化 记忆 的 依赖 束缚 了 我 们 从 中 学 习 、 成 长 和 发 展 的 能 


虽然 数字 化 记忆 可 获取 事物 的 全 部 细节 ， 但 是 并 未 对 信息 进行 任 
何 归 纳 处 理 ， 而 是 直接 存储 了 原始 数据 ， 并 且 不 对 信息 进行 抽样 ， 而 
征 采 用 整体 数据 。 由 于 数据 本 身 的 价值 密度 相对 较 低 ， 人 们 从 海量 信 
思 中 获取 真正 有 用 的 信息 越发 困难 。 从 茶 种 程度 上 来 说 ， 数 字 化 记忆 


成 为 这 个 时 代 信 息 取 舍 的 绊脚石 。 如 采 说 数字 化 记忆 有 是 我 们 取舍 信息 
的 一 道 屏障 的 话 ， 那 么 面 对 完整 的 数字 化 记忆 ， 我 们 应 该 如 何 对 信息 
进行 取舍 以 获取 有 价值 的 信息 呢 ? 


目前 ， 人 类 进行 信息 取舍 的 基本 理念 是 一 种 二 元 论 的 模式 ， 即 以 
保存 与 删除 为 对 立 范 畴 的 一 种 理论 建构 ， 该 理论 模式 有 要求 我 们 对 海量 
数据 依据 某 种 价值 目标 做 出 非 此 即 彼 、 非 存 即 多 的 选择 ， 并 相应 地 采 
用 数字 化 限制 、 保 护 信息 隐私 权 、 建 设 数字 隐私 权 基 础 设施 、 调 整 人 
类 的 现 有 认 知 、 打 造 恨 性 的 信息 生态 、 完 全 语 境 化 等 方法 。 其 中 ， 前 
三 种 方法 旨 在 预防 或 减轻 数字 化 记忆 对 信息 权力 的 挑战 ， 后 三 种 方法 
主要 是 预防 或 减轻 数字 化 记忆 对 时 间 所 构成 的 挑战 。 这 些 信息 取舍 方 
法 都 具有 明确 的 价值 导向， 在 某 种 程度 上 具有 一 定 的 成 效 。 


数字 化 节制 。 数 字 化 节制 是 在 数字 化 时 代 ， 人 们 为 了 不 失去 信 
息 控制 权 ， 用 节制 加 输入 个 人 信息 的 方法 来 避免 被 暴露 在 无 边 的 数字 
监狱 中 。 数 子 化 节制 的 信息 掌控 权 在 于 个 人 ， 是 借助 于 个 人 的 信息 取 
低 制 造 一 个 人 为 的 信息 遗 坪 情境 ， 以 提升 数字 化 记忆 有 效 性 的 方法 。 
但 是 ， 这 种 方法 受 个 人 偏好 的 影响 过 大 ， 其 客观 性 会 大 打折 扣 ， 其 规 
范 性 也 无 法 得 到 切实 的 保证 。 因 此 从 社会 规范 方面 和 公共 权利 方面 探 
索 一 条 以 信息 遗 坪 为 前 提 的 信息 取舍 之 路 束 成 为 一 种 更 具 建 设 性 意义 
的 选择 。 


保护 信息 隐私 权 。 在 数字 化 时 代 ， 信 息 隐私 权 思 不 仅 依赖 个 人 
对 触犯 者 采取 行动 的 意愿 ， 而 且 依 赖 法 律 系统 的 执行 能 力 。 简 言 之 ， 
保护 信息 隐私 权 需 要 一 个 精心 构建 的 法 律 机 制 来 实现 ， 从 法 律 的 视角 
出 发 ， 用 法 律 限 定 信息 的 取舍 ， 保 护 信息 隐私 ， 这 种 权利 是 对 数字 化 
记忆 中 的 信息 控制 权 问题 的 适当 回应 。 这 种 方法 认为 :“ 法 律 除了 在 现 
实生 活 中 应 该 规制 和 保护 我 们 的 生活 ， 还 要 在 网 络 世 界 保护 我 们 ， 规 
定 使 用 他 人 的 私人 数据 应 该 得 到 法 律 的 授权 且 要 具有 合理 的 目的 。，” 


建设 数字 隐私 权 基础 设施 。 建 设 数字 隐私 权 基础 设施 是 用 技术 
限制 未 经 授权 的 信息 的 使 用 ， 是 解决 如 何 通过 技术 手段 保护 数字 内 容 
免 遭 非法 复制 和 传播 的 技术 架构 。 数 字 化 时 代 ， 版 权 的 范畴 里 ， 信 息 
是 指 音乐 、 电 影 、 游 戏 、 数 字 图 书 等 ， 而 遗忘 的 范畴 里 ， 信 息 是 任何 
个 人 信息 、 信 息 的 使 用 者 以 及 使 用 方式 。 这 需要 媒体 播放 器 检查 这 些 
元 信息 ， 并 拒绝 播放 未 获得 适当 授权 的 信息 内 容 。 也 就 是 说 ， 数 字 化 
时 代 建 设 数字 隐私 权 基 础 设施 是 : “为 防止 信息 内 容 被 未 经 授权 的 设备 
播放 或 复制 ， 内 容 和 元 信息 常常 被 加 密 ， 需 要 一 个 只 有 获得 授权 的 设 
备 才 能 ‘识别 ' 的 特殊 密 钥 ， 它 完全 是 建立 在 技术 上 的 。”* 污 


调整 人 类 的 现 有 认 知 。 数 字 化 时 代 , “人们 能 够 做 到 有 意识 地 
忽略 过 去 ， 接 受 人 类 是 永恒 变化 、 绝 非 一 成 不 变 的 事实 ， 那 么 所 有 信 
息 的 长 期 存在 将 不 再 具有 那么 大 的 威胁 "起 。 也 就 是 说 如 果 人 们 能 接 
受过 去 的 记忆 ， 束 调整 了 头脑 ， 调 整 了 目 身 的 认 知 机 制 ， 使 目 己 适应 
数字 化 记忆 的 世界 ， 这 样 的 认 知 调整 将 会 消除 决策 不 明 或 反应 不 及 时 
的 潜在 危险 。 人 们 不 需要 通过 新 法 律 来 改变 社会 ， 不 需要 发 展 和 使 用 
新 的 技术 染 构 ， 因 为 必要 的 改变 发 生 在 我 们 的 头脑 中 。 而 且 通 过 重 塑 
思考 、 评 信和 决策 的 方式 ， 人 类 可 以 用 适应 能 力 来 应 对 数字 化 记忆 ， 
而 这 正 古 生物 演化 的 根本 要 素 ， 适 应 变化 的 环境 。 


打造 良性 的 信息 生态 。 信 息 生态 用 来 表达 生态 观念 和 日 渐 重要 
与 复杂 的 信息 环境 之 间 的 联系 。 随 着 生态 学 在 社会 学 、 经 济 学 等 各 个 
学 科 的 渗透 , “信息 生态 ”概念 由 最 初 利用 信息 技术 来 研究 生态 学 发 展 
为 人 、 社 会 组 织 与 信息 环境 之 间 关 系 的 研究 。 信 息 生态 是 杜绝 不 正当 
使 用 信息 的 一 剂 良药 ， 它 规定 了 什么 信息 能 被 收集 、 存 储 ， 并 且 能 被 
记忆 、 记 忆 多 久 ， 是 一 种 有 意 的 约束 。 一 个 人 将 信息 委托 给 他 人 后 ， 
一 旦 委托 的 目的 达成 ， 信 息 的 接收 者 必须 将 其 删除 ， 它 以 法 律 作为 支 
撑 ， 如 果 继 续 使 用 该 信息 就 是 非法 的 ， 会 受到 相应 的 法 律 制裁 。 


完全 语 境 化 。 数 字 化 记忆 的 完全 语 境 化 需要 建立 比 现 有 的 技术 
更 强 的 技术 基础 设施 ， 能 更 全 面 地 搜集 、 保 存 和 提取 生活 中 的 各 种 信 
息 。 在 完全 语 境 化 的 社会 中 ， 所 有 人 都 能 获取 有 关 任 何事 的 全 面 信 
息 ， 个 人 信息 控制 被 普遍 透明 度 所 替代 ， 创 造 了 一 个 反 监 视 的 世界 。 
而 且 所 有 人 都 能 获取 所 有 信息 ， 使 一 些 拥 有 各 种 技术 、 组 织 和 经 济 手 
段 的 人 能 更 好 、 更 深入 地 整合 信息 ， 从 而 催生 一 个 新 的 信息 有 权 者 与 
无 权 者 格局 ， 不 平等 的 信息 权利 不 用 分 配 便 会 目 动 生成 。 


上 上述 6 种 二 元 论 的 方法 分 别 从 个 人 控制 信息 分 圣 的 能 力 以 及 人 类 利 
用 信息 进行 决策 的 过 程 两 大 方面 入 手 ， 都 是 信息 非 此 即 彼 、 非 存 即 含 
的 方法 。 其 中 ， 数 字 化 和 节制、 保护 信息 隐私 权 和 建设 数字 隐私 权 基 础 
设施 十 为 了 应 对 信息 隐私 的 泄露 ， 解 决 数字 化 记忆 中 信息 权利 困 搞 的 
二 元 论 对 策 。 调 整 人 类 现 有 的 认 知 、 打 造 民 性 的 信息 生态 和 完全 语 境 
化 则 更 直接 地 面 对 了 遗 坪 终止 的 问题 ， 应 对 了 数字 化 记忆 中 时 间 的 挑 
战 。 
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第 三 节 
第 选 ， 先 择 最 优 决 策 


(一 ) 数据 匹配 与 稍 约 


伴随 着 超 数 据 时 代 的 到 来 ， 人 们 越 来 越 茫 然 于 什么 才 是 目 己 最 需 
要 的 内 容 、 什 么 才 是 目 己 现在 最 想得到 的 数据 。 作 为 信息 的 生产 者 ， 
人 们 需要 考虑 在 海量 数据 中 如 何 使 目 己 的 信息 引起 用 户 群 体 的 注意 ， 
而 不 至 于 泽 没 在 超 数 据 时 代 的 信息 洪流 中 ， 这 是 一 件 难 度 相当 大 的 工 
作 ; 同时 ， 信 息 的 获取 者 也 需要 在 互联 网 的 海量 信息 中 找到 目 己 真正 
需要 的 信息 ， 这 也 是 一 件 工 作 量 巨大 的 事情 。 因 此 ， 如 何 实现 面 癌 海 
量 数据 环境 的 热点 减 量 化 成 为 激活 数据 学 研究 的 重点 。 


所 谓 热 点 减 量化 是 数 据 单 元 目 激 活 后 ， 在 系统 层面 出 现 的 帕 素 托 
最 优 状 态 ， 是 公平 与 效率 的 “理想 王国 ”。 热 点 减 量化 就 是 实现 数据 处 
理 资源 优化 配置 的 理想 路 径 辐 ， 通 过 自 激活 后 ， 对 所 有 数据 单元 活跃 
状态 进行 清晰 的 层次 划分 ， 并 以 此 为 依据 进行 热点 的 过 庆 和 和 饶 选 。 与 
大 数据 时 代 的 数据 处 理 一 样 ， 热 点 减 量化 是 超 数据 时 代 的 重要 信息 取 
售 方 式 之 一 ， 它 同样 遵循 了 大 数据 处 理 的 简约 原则 。 


所 谓 简 约 原 则 是 牛顿 创设 的 一 条 “ 极 简 主义 ”的 节约 规则 。 在 牛顿 
看 来 ， 神 奇 的 目 然 界 在 创设 过 程 中 选择 的 简单 性 和 对 烦琐 的 厌恶 ， 使 
得 人 类 也 形成 如 下 观念 :“ 在 用 很 少 的 东西 束 能 够 解决 问题 的 情况 下 ， 
绝 不 劳力 费 神 和 兴 师 动 从 ”， 要 始终 体现 大 卓然 所 遵循 的 位 约 性 、 精 准 
性 、 合 理性 与 有 效 性 。 欲 达 此 目的 ， 区 3 需要 在 云 计算 或 大 数据 处 理 中 
遵循 简约 原则 ， 选 择 有 用 数据 ， 淘 汰 无 用 数据 ;识别 有 代表 性 的 本 质 


数据 ， 去 除 细 枝 术 节 或 无 意义 的 非 本 质数 据 。 要 能 够 确认 数据 之 则 的 
巨大 差距 或 差异 ， 以 及 鉴别 和 挑 出 那些 < 以 一 当 十 ”的 数据 和 信息 。 亿 ) 


热点 减 量 化 遵循 大 数据 处 理 的 简约 原则 ， 这 是 否 表 明 在 超 数 据 时 
代 对 信息 取舍 方式 与 大 数据 时 代 的 方法 一 致 呢 ? 答 案 是 否定 的 。 如 上 
所 述 ， 我 们 已 经 了 解 了 大 数据 时 代 信 息 取舍 的 6 种 有 效 方法 ， 即 数字 化 
节制 、 保 护 信息 隐私 权 、 建 设 数字 隐私 权 基 础 设施 、 调 整 人 类 的 现 有 
认 知 、 打 造 良性 的 信息 生态 和 完全 语 境 化 ， 这 6 种 方法 是 当下 社会 各 个 
领域 、 部 门 进行 信息 取舍 的 主要 方法 ， 是 规避 数字 化 记忆 带 来 的 压 
力 、 有 效 取 舍 信 息 的 重要 途径 。 但 是 ， 这 些 信 息 取舍 方法 都 是 保存 和 
删除 的 二 元 论 ， 是 以 方法 论 为 前 提 的 信息 取舍 方法 。 这 种 包含 明确 价 
值 取 合 的 设计 计划 是 以 特定 价值 目标 为 目的 的 非 此 即 彼 的 强制 取舍 ， 
不 是 超 数 据 的 信息 取舍 方法 。( 乌 


超 数 据 时代 与 人 类 记忆 和 遗 坪 的 生物 性 进程 相反 ， 与 大 数据 时 代 
记忆 与 遗 起 的 数字 化 进程 相同 。 由 于 数字 化 记忆 的 持久 性 、 全 面 性 ， 
记 住 什么 已 经 不 成 问题 ， 反 倒是 怎样 遗志 ， 特 别 是 恢复 记忆 伴随 遗 起 
的 目 然 过 程 成 为 超 数 据 取 舍 的 价值 目标 。 也 就 是 说 ， 传 统 的 信息 处 理 
方式 是 以 克服 遣 起、 强化 记忆 为 目的 的 信息 处 理 模 式 ， 或 是 以 特定 价 
值 目标 为 目的 的 非 此 即 彼 的 强制 取舍 模式 ， 而 超 数 据 时 代 的 信息 处 理 
模式 可 以 忌 结 为 以 恢复 目 然 遗 坪 为 目标 的 记忆 模式 构建 。 正 如 舍 恩 伯 
格 所 言 : “人 类 必须 走出 数字 化 记忆 的 阴影 ， 而 我 们 也 有 能 力 做 到 ， 那 
束 是 恢复 遗 筷 。 这 并 不 是 在 功 吹 一 个 无 知 的 未 来 ， 而 是 在 承认 一 个 随 
着 时 间 推 移 思 维 会 演变 、 观 点 会 调整 的 未 来 。 无 论 如 何 ， 面 对 即将 到 
来 的 超 数 据 时 代 ， 我 们 要 确保 目 己 依 然 记得 遗 起 的 美德 。” 


在 超 数 据 时 代 要 想 保 持 记 忆 的 遗 坪 维度， 凸显 记忆 的 目 然 遗 起 
德 ， 一 方面 要 加 强 对 超 数 据 取舍 的 本 质 理解 ， 男 一 方面 要 将 遗 起 因 了 于 
作为 数据 分 析 和 取舍 的 结构 性 要 素 。 从 本 质 层面 理解 超 数 据 的 取舍 ， 
超 数 据 的 取舍 既 古 一 个 全 居 化 的 过 程 ， 也 是 一 个 目 然 的 全 居 化 过 程 。 


因为 超 数 据 分 析 的 特点 是 海量 数据 的 分 析 ， 同 大 数据 时 代 和 小 数据 时 
代 相 比 ， 它 的 突出 特色 束 是 “要 分 析 与 某 事 物 相 关 的 所 有 数据 ， 而 不 是 
依靠 分 析 少 量 的 数据 样本 >”， 这 种 数据 分 析 的 特点 可 以 概括 为 “让 数据 
发 声 ”。“ 让 数据 发 声 ” 是 超 数 据 时 代 典 型 的 时 代 特 征 和 时 代 要 求 ， 其 理 
论 内 涵 并 非 是 让 超 数据 单一 化 地 “发 声 ”， 而 是 要 让 超 数据 多 样 化 地 目 
然 “ 发 声 ”。 这 既 展 示 了 超 数据 的 “记忆 出 色 ? 功 能 ， 又 实现 了 其 “出色 记 
忆 ” 本 质 ， 让 记忆 好 成 为 好 记忆 。 因 而 这 种 数据 分 析 的 过 程 可 以 成 为 目 
然 的 全 恩 化 过 程 。 


这 样 一 种 理想 型 的 数据 选取 过 程 能 否 实现 呢 ? 如 果 不 能 实现 ， 我 
们 又 如 何 应 对 这 一 理想 型 的 价值 诉求 呢 ? 显然 ， 让 数据 分 析 完 全 按照 
人 类 目 然 记忆 的 方式 选取 是 一 种 理想 妃 求 ， 目 前 以 技术 手段 彻底 实现 
还 不 具备 条 件 。 但 是 在 超 数 据 取舍 过 程 中 ， 可 以 将 其 作为 一 种 设计 计 
划 的 价值 目标 ， 作 为 一 种 设计 计划 的 逻辑 前 提 。 在 不 同 的 设计 计划 
中 ， 将 体现 不 同 价值 需求 的 遗 坪 因子 引入 数据 分 析 ， 以 此 部 分 实现 超 
数据 分 析 的 目 然 全 奶 化 过 程 。 个 性 化 推荐 中 的 “基于 目 然 遗 走 的 协同 过 
滤 算 法 ”可 以 看 作 实现 这 种 目 然 全 上 恩 化 数据 分 析 理 念 的 可 能 形式 之 一 。 


协同 过 滤 算 法 是 个 性 化 推荐 的 主要 数据 方法 。 目 前 ， 个 性 化 推荐 
技术 主要 有 基于 内 容 的 推荐 和 协同 过 滤 推荐 。 基 于 内 容 的 推荐 算法 是 
假定 用 户 的 兴趣 不 变 ， 根 据 用 户 以 往 的 数据 预测 其 可 能 喜欢 的 项 目的 
特征 ， 然 后 根据 用 户 数据 特征 与 内 容 特 征 的 拟 合 ， 同 用 户 推荐 项 目 。 
这 种 推荐 方式 的 主要 缺点 之 一 就 是 时 效 性 差 ， 推 荐 的 内 容 没 有 充分 考 
虑 用 户 的 当下 需求 。 协 同 过 减 推荐 则 是 将 信息 综合 的 区 域 扩大 ， 搜 索 
目标 用 户 的 看 干 近邻 ， 因 为 在 现实 生活 中 ， 对 于 不 了 解 的 问题 或 事 
物 ， 人 们 往往 会 咨询 目 己 的 朋友 或 是 和 目 己 兴趣 相似 的 人 ， 并 根据 他 
们 的 判断 做 出 目 己 的 选择 ， 因 而 可 根据 近邻 对 项 目的 预测 评分 生成 推 
存 列 表 。 同 时 ， 协 同 过 滤 算 法 也 会 考虑 客户 的 兴趣 随时 间 而 改变 的 可 
能 ， 将 时 间 要 素 引 入 个 性 化 推荐 分 析 ， 进 而 增强 推荐 的 时 效 性 。 


应 该 说 协同 过 沽 算法 提供 了 一 个 包含 时 间 维 度 的 数据 分 析 模 式 ， 
这 种 模式 体现 了 数据 减 量化 分 析 的 历史 性 特征 ， 综 合 了 用 户 的 当下 需 
要 ， 在 形式 设计 方面 满足 了 包含 遗 扎 的 历史 记忆 的 数据 取舍 要 求 。 具 
体 而 言 ， 束 是 “将 遗 筷 因子 作为 信息 取舍 的 一 个 结构 性 要 素 纳入 分 析 系 
统 ， 从 而 实现 在 数据 分 析 中 以 目 然 遗 坪 为 要 件 的 信息 取舍 ”。 


(二 ) 优化 算 力 配 置 


算 力 是 热点 减 量化 中 提高 数据 处 理 效 率 的 驱动 力 。 未 来 已 
来 ， 无 论 对 于 个 人 、 企 业 还 是 宏观 经 济 来 说 ， 拥 有 更 强 的 计算 能 
就 可 以 获得 更 多 竞争 优势 。 换 言 之 ， 计 算是 数字 世界 的 基石 ， 计 算 的 
智能 可 以 认 来 体验 力 、 创 造 力 和 变 音 力 。 一 句 话 ， 计 算 束 是 力量 。 热 
点 减 量化 中 计算 的 优化 配置 为 数据 处 理 皇上 了 才 膀 ， 极 大 地 提高 了 整 
个 数据 处 理 效率 ， 从 而 为 数据 处 理 节 约 了 时 间 成 本 、 资 金成 本 等 资 
源 。 


自 1946 年 世界 上 第 一 台电 子 数字 计算 机 ENIAC 问 世 以 来 ， 计 算 机 
已 经 经 历 72 年 的 发 展 。 在 这 短 短 的 70 多 年 时 间 里 ， 计 算 机 技术 实现 了 5 
次 飞跃 。 制 造 计算 机 的 元 器 件 从 最 初 的 电子 管 、 品 体 管 发 展 到 集成 电 
路 ， 集 成 电路 又 从 中 小 规模 发 展 到 大 规模 、 超 大 规模 。 当 时 ENIAC 的 
运算 速度 是 每 秒 5 000 次 加 法 运算 ， 而 现在 计算 机 的 运算 速度 最 快 可 以 
达到 每 秒 280.6 万 亿 次 浮 点 运算 ， 是 ENIAC 的 56 亿 倍 。 


计算 机 的 发 明 源 于 解决 计算 问题 ， 如 ENIAC 用 于 计算 火炮 弹道 ， 
因此 命名 为 计算 机 。 但 经 过 72 年 的 发 展 ， 计 算 机 直接 用 于 “计算 ”的 情 
况 越 来 越 少 ， 绝 大 多 数 计算 机 用 于 控制 、 管 理 、 通 信 、 文 字 人 处 理 、 信 
息 处 理 、 图 像 处 理 、 视 频 处 理 等 (虽然 完成 这 些 非 “计算 ”功能 仍然 依 
靠 计算 机 核心 的 计算 功能 ，。 尽 管 如 此 , “计算 ”始终 是 计算 机 的 重要 
应 用 领域 。 每 一 发 展 阶段 ， 最大、 最 强 的 计算 机 在 技术 上 、 应 用 上 都 


征 计算 机 技术 发 展 的 开拓 者， 并 都 被 用 于 解 算 最 大 、 最 难 的 计算 问 
题 ， 推 动 了 科学 技术 及 计算 机 技术 的 创新 发 展 。 


人 类 在 生产 生活 中 要 处 理 与 应 用 的 数据 越 来 越 多 ， 所 需要 的 数据 
分 析 算 法 越 来 越 复杂 ， 加 之 科学 人 研究 和 某 些 商业 领域 对 高 精确 度 的 要 
求 ， 计 算 资 源 成 为 人 工 智能 技术 发 展 的 瓶颈 。 对 海量 数据 进行 过 滤 仿 
选 的 过 程 ， 关 系 到 工作 效率 以 及 各 种 生产 成 本 的 节约 。 超 数据 时 代 对 
人 们 的 数据 处 理 能 力 提 出 了 完全 不 同 的 要 求 ， 可 以 说 ， 谁 掌握 了 数 
所 ， 谁 束 在 一 定 程 度 上 拥有 了 话语 权 。 这 种 对 数据 的 处 理 能 力 ， 实 际 
上 就 古 一 种 计算 能 力 ， 它 将 人 们 日 前 的 行为 或 者 操作 转化 为 一 系列 数 
据 ， 通 过 系列 计算 过 程 得 到 相应 的 结果 ， 为 人 们 的 决策 提供 虚拟 化 但 
具有 高 度 可 靠 性 的 依据 。 


虽然 计算 机 已 具备 强大 的 性 能 ， 并 且 还 在 不 断 提 高 ， 但 是 人 工 窜 
能 技术 的 迅猛 发 展 对 计算 效率 提出 了 更 高 的 要 求 ， 现 阶段 计算 机 已 不 
能 满足 人 类 对 计算 性 能 需求 的 增长 。 在 石油 勘探 、 地 震 预 测 预报 、 气 
候 模 拟 及 大 范围 天 气 预报 、 新 型 武 絮 设计 和 核武 絮 系 统 的 研究 模拟 、 
地 质 研究 、 天 体 和 地 球 科学 、 虚 拟 现实 系统 等 诸多 领域 都 需要 大 量 的 
计算 支撑 。 为 了 满足 超 数 据 时 代 处 理 数据 的 计算 能 力 需求 ， 人 们 对 高 
性 能 计算 设 定 了 更 高 的 目标 。 


自 第 一 台电 子 数 字 计 算 机 ENIAC 诞 生 以 来 ， 人们 就 没有 停止 过 对 
高 性 能 计算 的 追求 ， 高 性 能 计算 是 计算 机 科学 的 一 个 分 文 ， 主 要 是 指 
从 体系 结构 、 并 行 算法 和 软件 开发 等 多 方面 全 究 开发 高 性 能 计算 机 的 
技术 。 高 性 能 计算 本 身 并 没有 确切 的 定义 ， 它 是 指 通过 一 定 途 径 获得 
比 当前 主流 计算 机 更 高 性 能 的 计算 能 力 的 扩 术 。 高 性 能 计算 已 被 公认 
为 继 理论 科学 和 实验 科学 之 后 ， 人 类 认识 世界 、 改 造 世 界 的 第 三 大 科 
学 研究 方法 ， 是 科技 创新 的 重要 手段 。 在 当前 社会 情况 下 ， 高 性 能 计 
算 已 经 成 为 国家 综合 实力 的 体现 ， 对 国家 战略 的 发 展 有 着 重要 影响 。 


高 性 能 计算 技术 已 经 广泛 应 用 于 航空 航天 、 汽 车 制造 、 核 试验 模 
拟 、 军 事情 报 搜 集 处 理 、 天 气 预 报 等 诸多 领域 。 通 过 高 性 能 计算 ， 人 
们 可 以 完成 很 多 现代 计算 机 无 法 完成 的 实验 ， 既 可 以 免除 真实 实验 的 
高 额 费 用 ， 叉 不 会 对 环境 造成 任何 影响 。 通 汕 来 讲 ， 高 性 能 计算 有 两 
种 表现 方式 : 一 是 提升 单机 的 计算 能 力 ; 二 是 通过 网 络 连 接 多 人 台 计 算 
机 ， 进 而 提升 计算 能 力 。 第 一 种 方式 多 十 指 提升 CPU 的 处 理 能 力 ， 而 
随 着 CPU 主 频 的 提高 受制 于 制作 工艺 ，CPU 的 发 展 方向 已 经 由 单 核 向 
多 核发 展 。 事 实证 明 ， 很 多 情况 下 CPU 过 多 的 核心 反而 会 降低 CPU 的 
处 理 能 力 。 近 几 年 出 现 的 GPGPU 《通用 计算 图 形 处 理 器 ) 技术 已 经 成 
为 提升 单机 处 理 能 力 的 主要 技术 。 第 二 种 方式 是 通过 整合 多 台 网 络 计 
算 机 来 提升 计算 能 力 ， 因 为 性 价 比较 高 ， 已 经 逐渐 成 为 主流 方式 。 


随 厦 计算 机 和 智能 硬件 的 快速 发 展 、 普 及 应 用 ， 更 多 的 高 性 能 计 
算 技 术 也 得 到 了 快速 的 研究 和 发 展 ， 尤 其 是 基于 计算 机 技术 而 实现 
的 、 人 类 在 处 理 数据 方面 的 云 计算 等 新 一 代 高 性 能 计算 技术 ， 极 大 提 
高 人 类 收集 、 分 析 和 处 理 数 据 的 能 力 ， 促 进入 工 状 能 的 应 用 与 普及 。 
所 谓 云 计算 ， 十 基于 互联 网 技术 的 一 项 虚拟 运算 撤 术 ， 它 是 利用 互联 
网 相关 服务 的 拓展 和 增加 来 实现 虚拟 资源 的 获取 ， 例 如 模拟 跳伞 、 煤 
破 现场 、 疯 车 等 。 云 计算 具有 非常 突出 的 计算 能 力 ， 通 单 都 是 超大 规 
模 ， 例 如 合 歌 云 计算 已 经 拥有 100 多 万 台 计 算 机 。 使 用 云 计算 的 费用 低 
廉 ， 用 户 可 以 以 极 低 的 价格 获得 优质 的 服务 和 极其 强大 的 计算 体验 。 
利用 云 计 算 获 得 的 货源 具有 虚拟 性 ， 而 不 是 以 实物 的 方式 来 体现 ， 其 
运算 结果 可 以 按照 用 户 的 需求 任意 定制 ， 因 而 可 以 充分 满足 不 同 用 户 
的 不 同 需求 。 


云 计 算 利 用 了 多 人 台 计 算 机 的 实时 互联 、 互通 保证 运算 结 采 的 高 可 
靠 性 ， 海 量 数据 的 处 理 能 力 要 远 远 超 出 单 台 计算 机 。 云 计算 的 应 用 也 
实现 了 海量 化 与 高 度 养 能 化 ， 不 仅 可 以 实现 多 个 应 用 同时 运行 而 不 降 
低 运 行 速度 ， 在 云 数 据 的 文 撑 下 还 可 以 根据 用 户 的 不 同 需求 衍生 出 不 


同 的 应 用 类 型 。 多 人 台 云 计算 机 随时 随地 保持 收集 数据 、 处 理 数 据 、 分 
析 数 据 的 能 力 ， 能 够 不 断 满足 数据 规模 与 用 户 群 规模 的 扩大 。 


(三 ) 选择 最 优 算 法 


算法 是 热点 减 量 化 中 更 好 地 过 滤 筛 选 海量 数据 的 重要 保 
障 。 在 数据 处 理 过 程 中 ， 算 法 对 于 数据 处 理 具 有 决定 性 的 作用 ， 通 常 
算法 的 选择 直接 影响 数据 处 理 效 果 。 同 样 ， 在 热点 减 量 化 环节 ， 算 法 
对 海量 数据 的 取舍 意义 不 言 而 喻 。 如 果 没 有 算法 的 话 ， 我 们 将 不 能 
好 地 达到 数据 过 滤 筛 选 的 目的 。 由 此 可 见 ， 算 法 是 热点 减 量化 中 更 好 
地 对 海量 数据 进行 过 滤 筛 选 的 重要 文 撑 。 关 于 算法 这 一 古老 的 概念 ， 
萌生 于 四 五 千年 以 前 。 已 知 最 早 的 算法 写 在 考古 学 家 发 掘 出 的 古巴 比 
伦 泥 片上， 这 些 泥 版 的 年 代 是 公元 前 3000 一 公元 前 1500 年 。 


什么 叫 算法 ? 根据 美国 著名 计算 机 专家 死 努 特 的 定义 ， 算 法 就 是 
一 个 有 穷 规 则 的 集合， 其 中 规则 规定 了 一 个 解决 某 一 特定 类 型 问题 的 
运算 序列 。 根 据 这 个 定义 ， 把 算法 理解 为 若干 基本 操作 及 其 规则 作为 
元 素 的 集合 ， 即 一 个 算法 束 是 由 大 和 干 基本 操作 按 一 定 顺 序 规则 进行 操 
作 的 序列 ， 这 是 对 算法 的 广义 理解 。 在 广义 的 定义 下 ， 生 活 中 充 不 着 
许多 性 质 完 全 不 同 的 算法 。 例 如 ， 报 纸 排版 编辑 、 玄 调 、 下 棋 、 解 数 
学 题 …... 实 际 上 任何 有 目的 的 、 有 计划 的 行动 都 可 归结 为 某 种 算法 ， 
尽管 有 时 候 人 们 并 不 明确 这 一 点 。 仔 细 分 析 束 会 发 现 ， 一 个 有 目的 、 
有 计划 的 行动 总 可 以 被 分 解 为 多 步 又 的 基本 操作 和 规则 。 残 像 训 调 中 
烧 熟 这 一 环 方 ， 可 分 成 癌 、 炒 、 炸 、 准 、 蒸 、 烤 等 不 同 的 基本 操作 ， 
并 且 可 以 交叉 使 用 ， 不 同 的 操作 顺序 可 以 做 出 不 同 的 菜 看 。 这 个 例子 
十 分 清楚 地 说 明了 一 个 相当 复杂 的 过 程 ， 都 可 以 通过 “逐步 分 解 ” 的 方 
式 ， 一步 一 步 地 分 解 为 基本 的 操作 和 规则 。 


我 们 正 生活 在 一 个 算法 时 代 。 一 两 代 人 以 前 ， 提 到 “算法 ”这 个 
词 ， 可 能 多 数 人 脑 中 会 一 片 空 日 。 如 今 ， 文 明 社会 的 每 个 角落 都 存在 
算法 ， 日 常生 活 的 每 分 每 秒 也 都 和 算法 有 关 。 算 法 不 仅 存在 于 你 的 手 
机 或 笔记 本 电脑 ， 还 存在 于 你 的 汽车 、 房 子 、 家 电 以 及 玩具 中 。 例 如 
银行 系统 束 是 由 各 种 算法 交织 而 存在 的 庞大 集合 体 ， 算 法 能 安排 航 
班 ， 也 能 鸭 驶 飞机 。 算 法 能 经 营 工 三、 进行 交易 、 运 输 货物 、 处 理 现 
金 收益 ， 还 能 保存 记录 。 如 果 所 有 算法 都 突然 停止 运转 ， 那 么 区 是 现 
代 社 会 的 末日 。 


机 器 通过 学 习 能 够 达到 混淆 人 类 的 程度 ， 其 核心 拉 术 在 于 算法 。 
2015 年 10 月 5 一 9 日 ， 闫 国 硅谷 公司 旗下 的 人 工 智 能 开发 商 深思 研发 的 
围棋 电脑 软件 阿尔 法 狗 打 败 了 职业 棋 手 一 一 欧洲 围棋 冠军 攀 谱 ， 开 创 
全 球 先河 。 在 2016 年 3 月 举行 的 世界 围棋 冠军 李 世 石 与 阿尔 法 狗 的 比赛 
中 ， 李 世 石 以 1:4 败 北 。 紧 接着 的 2017 年 的 人 机 大 战 中 ， 阿 尔 法 狗 再 次 
完胜 世界 排名 第 一 的 柯 洁 。 据 专业 人 士 分 析 ， 在 以 往 采 用 的 索 特 卡 洛 
树 搜 索 算 法 之 外 ， 阿 尔 法 狗 狐 加 入 “价值 网 络 "? 和 “策略 网 络 ” 两 种 深度 
神经 网 络 算法 ， 分 别 减少 了 搜索 所 需 的 广度 和 深度 。 


算法 古 一 系列 指令 ， 它 能 告诉 计算 机 该 做 什么 ， 计 算 机 是 由 几 十 
亿 微 小 开关 ( 称 为 晶体 管 ) 组 成 的 ， 算 法 能 在 1 秒 内 打开 并 关闭 这 些 开 
关 几 十 亿 次 。 最 简单 的 算法 是 触动 开关 。 一 个 品 体 管 的 状态 就 是 一 个 
比特 信息 : 如 果 开 头 打开， 信息 束 是 1; 如 果 开 关 关 闭 ， 信 息 束 是 0 。 
银行 的 计算 机 的 某 个 比特 信息 会 显示 账户 是 否 已 透 文 ， 类 国 社会 保障 
总 效 的 计算 机 的 某 个 比特 信息 表明 你 是 活着 还 是 已 死亡 。 第 二 侧 单 的 
算法 是 把 两 个 比特 结合 起 来 “信息 论 之 父 ? 克 形 德 .香农 第 一 个 意识 到 
品 体 管 的 活动 殉 是 在 运算 ， 因 为 晶体 管 开 了 又 关 ， 有 征 对 其 他 品 体 管 的 
回应 : 如 果 晶 体 管 A 只 有 在 晶体 管 B 和 C 都 打开 时 打开 ， 那 么 这 时 它 就 
征 在 做 小 型 的 逻辑 运算 ;如 采 唱 体 管 A 在 晶体 管 B 和 C 其 中 一 个 打开 时 
才 打 开 ， 束 是 男 外 一 种 小 型 逻辑 运算 ， 如 果品 体 管 A 在 蝇 体 管 B 关 闭 的 
时 候 打 开 ， 这 又 十 第 三 种 运算 。 


算法 古 一 套 闫 格 的 标准 。 人 们 常 襄 ， 你 没 法 真正 了 解 某 样 东西 ， 
直到 你 能 用 一 种 算法 将 其 表达 出 来 。 方 程式 对 物理 学 家 和 工程 师 来 说 
束 古 谋生 工具 ， 而 这 也 仅仅 古 一 种 特殊 算法 。 例 如 牛顿 第 二 定律 ， 可 
以 说 是 有 史 以 来 最 重要 的 等 式 之 一 ， 用 物体 的 质量 乘 以 其 加 速度 ， 可 
以 算出 作用 在 物体 上 的 力 。 该 定律 还 说 明了 加 速度 等 于 作用 力 除 以 质 
量 ， 要 开明 这 一 点 ， 只 需 一 个 运算 步 又。 在 科学 的 任何 领域 ， 如 采 时 
个 理论 无 法 用 算法 表示 ， 那 么 它 就 不 是 很 严 还 。 


算法 中 的 蚁 群 算法 是 一 种 模拟 目 然 界 的 生物 特性 而 形成 的 并 行 算 
法 ， 具 有 自 组 织 性 和 较 强 的 鲁 棒 性 时 。 从 现实 世界 中 蚂蚁 草食 的 过 程 
可 以 看 出 ， 蚂 蚁 能 够 找到 从 蚁 六 到 食物 源 的 最 短路 径 ， 这 一 点 与 该 路 
径 上 的 信息 素 积 索 密 不 可 分 ， 信 息 素 积累 的 过 程 束 是 一 个 正 反 馈 的 过 
程 。 随 着 蚁 群 算法 的 发 展 和 完善 ， 人 们 已 经 将 它 应 用 于 求解 许多 领域 
中 的 难题 ， 并 取得 了 日 越 的 成 果 。 实 践 证 明 ， 蚁 群 算法 是 处 理 多 目标 
问题 的 一 种 有 效 的 寻 优 方法 ， 具 有 求解 多 目标 问题 的 优点 。 


蚁 群 算 法 通过 模拟 目 然 界 的 蚂蚁 砚 食 过 程 对 目标 进行 搜索 ， 在 搜 
索 过 程 中 人 工 蚂 蚁 会 在 其 经 过 的 路 径 上 释放 信息 聚 ， 在 此 之 后 的 蚂蚁 
会 根据 路 径 上 的 信息 到 浓度 选择 行进 路 人 径 。 信 息 素 浓度 越 高 ， 则 该 路 
径 被 选择 的 概率 越 大 。 蚁 群 算法 实现 的 TSP (旅行 商 问 题 ) 过 程 可 以 
描述 为 :将 m 只 蚂蚁 放 入 n 个 随机 选择 的 城市 中 ， 那 么 每 只 蚂蚁 每 步 的 
行动 是 根据 一 定 的 依据 选择 下 一 个 它 还 没有 访问 的 城市 ， 同 时 在 完成 
一 步 从 一 个 城市 到 达 男 一 个 城市 ) 或 者 一 个 循环 (完成 对 所 有 n 个 城 
市 的 访问 ) 后 ， 更 新 所 有 路 径 上 的 信息 素 浓度 。 


1. 大 数据 战略 重点 实验 室 . 块 数据 2.0: 大 数据 时 代 的 方式 革命 [M] .北京 : 中 信 出 版 
社 ，2016: 125-126. 


2. 张 训 .大 数据 处 理应 遵循 的 原则 | EB/OL ] . ( 2015-03- 
02) .http://www.cssn.cn/dzyx/dzyx_gwpxjg/201503/t20150302_1529441.shtml. 


3 


4 


. ”朱玉 静 . 从 二 元 论 到 自然 
2015. 
鲁 棒 性 ， 指 系统 的 健壮 全 


系统 在 一 定 的 参数 援 动 下 ， 维 持 其 他 怕 


元 论 一 一 大 数 


FE 和 抗 变 性 ， 


是 在 异常 和 危险 情况 下 系统 


四 取 侈 探析 LD] .黑龙 江 : 黑龙 江 大 学 ， 


FE 能 的 特性 。 一 一 编者 注 


E 存 的 关键 。 控 什 


和 


= 


第 七 革 
失 


群体 智能 : 智能 碰撞 


人 工 智 能 技术 的 空前 发 展 正 深刻 地 改变 人 机 之 间 的 关系 和 互动 模 
式 。 由 于 人 类 生活 中 存在 着 高 度 的 不 确定 性 和 脐 弱 性 ， 以 及 人 类 所 面 
临 问 题 的 开放 性 ， 无 论 机 喜多 么 智能 ， 人 类 多 么 智慧 ， 都 不 能 单独 赁 
一 方 解 决 这 些 问 题 。 因 此 ， 需 要 以 平等 的 视野 去 挖掘 人 机 双方 的 最 大 
次 能 ， 将 研究 的 重心 从 人 机 之 间 的 博 弃 转移 到 人 类 和 机 器 之 间 的 合 
作 ， 打 破 人 类 传统 获取 知识 信息 的 能 力 局 限 和 机 天 的 智能 言 区 ， 形 成 
平衡 理智 和 情感 后 一 种 群体 最 佳 决策 。 


激活 数据 学 中 的 智能 碰撞 是 把 传统 强调 的 专家 智能 模拟 转移 到 群 
体 智 能 ， 窜 能 体 的 构造 从 逻辑 和 单调 走向 开放 和 涌现 。 想 法 在 群体 之 
间 有 效 流动 ， 使 得 群体 不 断 进化 ， 能 够 更 好 地 适应 复杂 多 变 的 社会 环 
境 。 在 人 和 智能 体 组 成 新 型 的 智慧 群体 的 过 程 中 ， 知 能 磁 撞 能 够 让 人 
类 和 人 工 智能 相互 学 习 ， 充 分 发 挥 各 目 优 势 ， 使 得 人 机 之 间 劣 势 互 
补 、 优 势 增强 ， 借 助 互 联网 平台 ， 能 够 高 效 重 组 群体 ， 形 成 更 广泛 、 
更 精准 的 群体 智能 。 


第 一 节 
头脑 风暴 ， 发 现 好 想法 和 做 出 好 决策 


(一 ) 创造 力 是 发 现 好 想法 的 源 果 


头脑 风 骏 最 初 由 现代 创造 学 况 基 人 奥 斯 本 于 1941 年 提出 ， 站 在 改 
变 传 统 会 议 机 制 制约 新 观点 产生 的 现状 ， 通 过 聚集 不 同 背景 的 成 员 ， 
发 励 成 员 目 由 发 表 观 点 ， 并 在 提出 的 观点 之 上 建立 新 观点 ， 想 法 经 过 
层 层 迭 代 、 碰 撞 ， 最 终 找到 特定 问题 解决 方案 的 会 议 技巧 。 至 于 能 否 
完美 地 解决 问题 ， 其 关键 在 于 讨论 过 程 和 不 同 观点 的 融合 程度 ， 也 束 
征 小 组 创造 力 。 创 造 性 高 的 小 组 经 常 得 到 意 想 不 到 的 成 果 ， 而 创造 性 
低 的 小 组 却 很 少 得 到 建设 性 的 成 果 。 成 员 目 映 的 创造 力 和 知识 异 质 性 
都 有 可 能 影响 小 组 的 创造 力 : 一 方面 ， 小 组 由 个 体 组 成 ,个体 的 创造 
力 必然 会 影响 小 组 的 创造 力 ， 男 一 方面 ， 创 造 性 活动 需要 洞察 各 种 各 
样 的 情况 ， 成 员 拥 有 的 异 质 性 想法 、 观 点 和 特长 古 小 组 创造 力 的 重要 
来 源 。 


个 体 创 造 力 的 好 坏 取决 于 经 验 融 合 的 高 低 。 创 造 力 是 指 人 类 
的 智慧 在 抽象 思维 、 推 理 、 创 造 新 知识 、 形 成 联想 等 方面 的 技巧 。 具 
有 创造 力 的 个 体 首先 要 有 随机 应 变 的 能 力 ， 能 举一反三 ， 不 受 固 定 模 
式 和 常规 等 心理 定式 干扰 ， 能 提出 超常 规 的 构想 和 观念 。 其 次 要 有 快 
速 反 应 的 能 力 ， 能 够 在 较 短 时 间 内 表达 出 较 多 的 想法 。 最 后 要 有 独特 
性 ， 对 第 规 事物 具有 不 寻 和 彰 的 独特 见解 ， 对 个 体 目 身 已 经 掌握 的 原 
理 、 定 理 、 方 法 忌 结 经 给， 解决 问题 的 时 候 有 方 辐 、 有 施 围 、 有 程 
序 5 


史 蒂 夫 :乔布斯 说 : 创造 力 只 不 过 是 把 事物 关联 在 一 起 而 已 。19 世 
纪 70 年 代 ， 妇 产科 医生 斯 带 分 ' 搭 尼 在 动物 园 散 步 ， 俩 然 发 现 一 些小 鸡 
孵化 磺 ， 看 到 刚刚 孵 出 来 的 小 鸡 在 孵化 忌 温 暖 作 适 的 空间 中 蹦 蹦 跳 
跳 ， 一 个 创意 突然 出 现在 他 的 脑海 之 中 ， 那 区 是 制造 类 似 小 鸡 凡 化 天 
的 设备 ， 为 刚 出 生 的 屡 儿 提供 相似 的 保护 。 当 时 新 生 儿 死亡 率 非 党 
高 ， 在 体重 过 轻 的 新 生 儿 中 ，66% 在 出 生 几 周 后 就 不 邓 天 折 ， 使 用 保 
温 箱 ， 死 亡 率 则 降低 至 389%。 人 们 总 是 把 创新 看 成 一 个 个 超越 环境 限 
制 的 过 程 ， 但 实际 上 ， 创 新 更 像 是 一 个 个 想法 的 拼接 物 ， 且 由 思想 的 
人 碎片 拼接 而 成 。 


社会 化 学 习 是 提高 创造 力 的 重要 方式 。 人 类 是 群居 动物 ， 在 
合作 与 互动 的 过 程 中 ， 不 信 地 向 各 式 各 样 的 人 征求 对 目 身 想法 的 意 
见 ， 总 结 、 学 习 、 融 合 目 映 经 验 ， 形 成 最 好 的 想法 来 指导 行动 和 决 
策 。 在 互动 和 交流 的 过 程 中 ， 不 是 只 有 好 的 想法 才 会 对 个 体 产生 影 
啊 ， 特 异 的 想法 和 观 总 对 个 体 的 刺激 更 大 。 只 有 不 断 地 进行 社会 化 学 
习 才 能 使 个 体 产 生 足 够 多 样 的 想法 。 所 谓 社 会 化 学 习 有 是 在 日 常生 活 中 
通过 观察 他 人 行为 学 习 痢 策略 以 及 通过 体验 学 习 痢 知识 的 过 程 。 模 仿 
他 人 的 成 功 经 验 ， 要 比 个 体 独 目 学 习 高 效 得 多 。 生 物 学 家 在 研究 野外 
群居 动物 时 发 现 ， 模 仿 成 功 个 体 可 以 提高 更 食 、 择 僵 和 酮 轧 地 选择 等 
决定 的 准确 性 。 有 关 学 习 的 数学 模型 表明 ， 在 复杂 环境 中 ， 最 佳 的 学 
习 策 略 是 花费 90% 的 精力 来 寻找 并 效仿 那些 做 得 好 的 人 ， 剩 下 10% 的 
精力 应 该 伦 在 个 体 实验 和 透彻 思考 上 。 


社会 化 学 习 对 象 的 多 样 性 决定 了 想法 的 好 坏 程 度 。 当 每 个 
学 习 对 象 都 选择 相同 的 方向 时 ， 信 息 和 想法 来 产 极 有 可 能 不 够 多 样 
化 ， 极 有 可 能 会 导致 团体 决策 不 仅 没 有 发 挥 出 所 有 成 员 知 识 和 稚 慧 的 
总 和 ， 反 而 犯 下 比 个 人 决策 更 严重 的 错误 ， 因 为 这 时 的 成 员 会 误 以 为 
自己 的 错误 想法 有 据 可 循 ， 以 至 产生 错误 的 共识 ， 这 时 该 做 的 是 进 一 
步 探 索 。 和 群体 知识 的 多 样 性 会 市 来 知识 县 加 和 化 学 反应 ， 产 生意 想 不 
到 的 好 决策 和 好 想法 。 


在 头脑 风 骏 的 过 程 中 ， 个 体 想 法 的 传播 与 流感 的 传播 有 相似 之 
处 。 在 流感 病毒 传播 的 过 程 中 ， 当 一 个 感染 者 和 “新 人 ”接触 时 ， 新 人 
会 存在 一 定 的 被 感染 病毒 的 风险 。 如 有 果 两 人 之 间接 触 过 多 并 且 * 新 
人 "是 易 感 染 者 的 话 ， 他 融 很 可 能 得 流感 。 如 采 大 部 分 人 都 是 易 感 者 ， 
那么 病毒 将 以 指数 级 增长 的 传播 速度 扩散 到 大 部 分 人 之 中 。 想 法 的 流 
动 也 与 其 类 似 。 如 果 在 具有 某 种 行为 的 个 体 和 一 个 “新 人 ”之 间 有 很 多 
互动 ， 并 且 “ 新 人 ”十 易 感 者 ， 那 么 这 一 新 想法 束 有 可 能 生根 发 芋 ， 进 
而 改变 “新 人 ”的 行为 。 


(二 ) 群体 合作 与 互动 


在 社会 活动 中 ， 人 类 通过 学 习 、 说 话 、 思 考 与 环境 互动 来 执行 行 
动 ， 通 过 大 量 的 参与 合作 ， 发 现 、 选 择 和 学 习 痢 的 策略 并 协调 行动 以 
适应 周围 的 环境 变化 。 合 作 和 动态 优化 的 质量 表明 人 类 群体 祝 能 比 任 
何 个 人 智慧 都 好 得 多 。 人 类 的 智 营 是 创造 性 的 、 复 杂 的 、 动 态 的 。 人 
类 智力 的 复杂 性 意味 着 人 脑 内 部 神经 系统 的 结构 复杂 性 和 结缔 组 织 可 
塑性 ， 以 及 一 系列 直觉 、 意 识 和 思维 机 制 所 固有 的 复杂 性 。 目 前 虽然 
关于 人 类 智力 的 机 制 没 有 共同 的 结论 ， 但 正 是 由 于 人 脑 的 复杂 结构 ， 
人 类 的 智力 才能 更 好 地 专门 处 理 完 整 的 非 结构 化 信息 。 人 类 知识 进化 
和 学 习 能 力 的 动态 性 使 得 人 类 更 善于 学 习 、 推 理 、 协 作 和 进行 其 他 高 
级 智能 活动 。 


在 社会 化 学 习 的 互动 中 产生 的 共识 与 异 见 是 扩大 和 产生 价 
值 的 关键 。 所 谓 共识 ， 就 是 个 体 被 某 一 信号 激活 时 ， 向 被 这 信和 号 激 
活 的 其 他 个 体 产 生 相似 的 信息 扩散 而 引起 的 共 吗 ， 也 束 是 说 ， 当 一 个 
个 体 被 激活 时 ， 同 类 随 之 都 被 激活 ， 从 而 共同 处 于 工作 状态 。 张 光 鉴 
在 《相似 论 》 中 指出 , “如 采 在 问题 求解 时 ， 某 个 偶然 的 机 会 ， 相 似 块 
与 问题 求解 的 信息 度 达到 高 度 的 相似 结合 与 相似 匹配 ， 产 生 了 茶 种 共 


振 态 ， 信 息 的 幅度 整 会 大 大 增加 ”。 个 体 想法 在 互动 中 不 是 静止 的 ， 而 
古 处 于 一 种 动态 的 过 程 中 ， 它 一 方面 与 自身 经 验 和 社会 化 学 习 有 关 ， 
另 一 方面 又 与 其 他 个 体 相互 作用 、 相 互联 系 ， 类 似 苏 霍 姆 林 斯 基 说 
的 “知识 的 周转 ”， 促 使 知识 周转 的 “动力 ”可 是 在 认 知 过 程 中 大 脑 会 目 
觉 地 或 下 意识 地 按照 相似 性 原理 去 工作 ， 这 个 工作 过 程 束 是 外 界 信息 
进入 大 脑 后 同 已 经 存储 在 大 脑 中 的 信息 进行 硝 含 、 接 通 和 激活 。 
此 ， 一 个 个 体 智能 拥有 的 经 验 越 丰富 ， 那 么 相似 信息 束 越 容易 进入 共 
振 状 态 ， 从 而 其 价值 也 就 会 表现 得 越 大 。 


在 互动 过 程 中 的 奇特 想法 往往 能 产生 好 的 决策 。 创 新 的 本 
质 是 解决 问题 的 好 想法 。 什 么 古 创新 ? 积极 心理 学 已 经 清楚 地 发 现 ， 
创新 并 不 是 单纯 的 “ 求 新 ”。 真正 的 创新 是 “ 狐 壬 和 有 用 ”的 结合 ， 两 者 
结合 越 紧 密 ， 创 新 越 军 越 。 在 群体 决策 中 ,个 体 可 能 拥有 独立 的 信 
轧 ， 并 有 足够 的 知识 体系 文 撑 这 些 信息 ， 充 分 信任 这 一 信息 足以 抗拒 
社会 影响 效应 ， 他 们 的 独立 策略 可 能 比 群体 的 共识 策略 要 好 得 多 。 皇 
么 样 辨 别 这 些 好 的 怪 想 法 呢 ? 只 要 找到 很 多 有 这 样 独立 特性 的 个 体 ， 
如 条 发 现 这 个 策略 能 够 得 到 他 们 中 大 部 分 人 的 共识 ， 那 么 一 个 好 的 党 
略 融会 跟随 这 些 独立 特性 个 体 的 共识 而 产生 。 


虽然 群体 智能 可 以 体现 出 优 于 个 体 之 和 的 智 营 ， 但 是 从 古 至 今 ， 
群体 往往 伴随 着 群体 迷 思 现象 。 所 谓 的 群体 迷 思 是 人 们 在 团队 决策 过 
程 中 ， 主 观 为 了 维护 团体 的 和 谐 与 凝 案 力 ， 而 名 上 略 了 事实 的 真相 ， 最 
终 导致 决策 的 失误 。 美 国 心理 学 家 欧文 : 詹 尼 斯 通过 对 珍珠 港 事件 、 了 朝 
鲜 战 争 、 越 南 战争 、 水 门 事件 等 美国 政府 历年 外 交 决 策 事 件 ， 参 考分 
析 各 个 事件 的 环境 、 决 策 过 程 、 决 策 结果 ， 发 现 了 造成 团体 迷 思 的 因 
素 ， 如 群体 高 度 凝 聚 力 、 和 群体 隅 绝 外 界 资 讯 与 分 机 、 和 群体 成 员 背 景 和 
价值 观 的 相似 性 等 。 为 了 避免 群体 迷 思 的 出 现 ， 往 往 需要 群体 成 员 民 
得 群体 思维 ， 善 于 社会 化 学 习 ， 总 结 经 验 ， 并 能 公平 公正 地 表达 想 
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(三 ) 群体 决策 与 判断 


随 着 万 物 互联 和 互通， 想法 随 着 光纤 和 空气 在 社会 网 络 中 流动 ， 这 
种 想法 的 流动 促进 了 思想 在 不 同 个 体 、 不 同时 间 、 不 同 空间 传递 。 融 
入 适当 的 想法 流 中 能 够 避免 个 体 试 验 的 风险 ， 不 必 进 行 复杂 的 实验 整 
能 获得 大 量 的 行为 经 验 指 导 。 人 恰当 的 想法 流动 能 够 让 群体 中 的 全 体 成 
员 做 出 比 个 体 独 立 决 策 更 好 的 决策 。 由 于 拥有 共同 的 习惯 和 经 验 ， 群 
体 就 形成 了 比 个 体 智 能 更 强大 的 组 织 智慧 ， 这 种 智慧 在 个 体 互 动 、 相 
互 学 习 以 及 分 享 彼此 想法 的 过 程 中 产生 。 


想法 的 流通 依赖 社会 化 学 习 ， 通 过 与 他 人 的 示范 性 行为 接触 预测 
我 们 目 身 的 行为 。 人 类 同 其 他 灵 长 类 动物 一 样 ， 太 过 于 依赖 从 周围 的 
想法 中 学 习 的 能 力 ， 这 种 学 习 可 能 会 造成 团体 迷失 而 起 失 群 体 智能 。 
人 类 文明 不 断 演进 而 猴 类 文明 停 清 不 前 的 原因 或 许 在 于 ， 人 类 偶尔 会 
选择 与 周围 处 于 主导 地 位 的 想法 育 道 而 驰 。 当 我 们 选择 其 他 群体 时 ， 
也 就 汲取 了 新 的 习惯 和 观点 。 在 一 些 情况 下 ， 他 们 能 够 帮助 我 们 做 出 
更 好 的 决策 。 


个 体 想 法 汇 育成 群体 共识 ， 得 到 优 于 个 体 判断 的 平均 化 的 
群体 智能 。 和 詹姆斯 . 索 罗 维基 的 《群体 的 智能 》 率 先 提出 了 “组 织 智 
慧 * 的 概念 ， 智 慧 组 织 具有 以 下 特点 。 第 一 ， 多 样 化 的 观点 。 每 个 人 都 
有 目 己 独立 的 见解 ， 哪 怕 有 些 见 解 看 似 郭 诞 。 多 样 化 的 见解 可 以 相互 
抵消 彼此 判断 中 的 廖 误 ， 增 加 群体 智能 判断 的 正确 性 。 第 二 ， 独 立 
性 。 人 们 对 事物 的 判断 不 仅仅 依赖 于 周围 人 的 观点 。 众 人 的 独立 见解 
征 群 体 智 能 胜 过 个 体 智 慧 的 重要 因 妈 ， 因 为 独立 性 能 使 一 群 人 的 错误 
不 会 发 生 关 联 ， 不 会 影响 到 群体 的 判断 ， 使 独立 的 个 体 可 以 获得 更 多 
的 新 信息 。 索 罗 维 基 以 蚂 有 蚁 群体 的 “循环 麻 ? 为 例 ， 谤 明 当 一 群 蚂蚁 转 
成 一 个 圆圈 绕 行 时 ， 每 一 只 蚂蚁 都 只 跟着 前 面 的 蚂蚁 走 ， 没 有 试图 寻 
找 新 路 ， 最 后 全 体 蚂 蚁 一 直 反 复 沿 着 圆圈 走 到 素 死 。 第 三 ， 分 散 与 分 


权 化 。 人 们 可 以 充分 发 挥 个 体 的 差异 性 ， 从 而 为 群体 智能 页 献 更 具 个 
性 化 和 本 地 化 的 希 慧 。 例 如 ， 开 源 软 件 束 是 分 散 化 的 典型 案例 ， 每 一 
个 人 都 可 以 为 开源 软件 的 设计 、 开 发 和 运用 页 献 目 己 的 智慧 与 力量 ， 
操作 系统 Linux 对 比 微软 的 windows 就 是 众所周知 的 范例 。 但 是 ， 分 散 
与 分 权 须 有 能 够 聚集 众人 短 匡 的 渠道 和 机 制 ， 才 能 够 真正 实现 群体 的 
智慧 。 第 四 ， 集 中 化 。 一 种 能 够 集中 个 体 判 断 在 一 起 ， 形 成 群体 决策 
智慧 的 机 制 。 对 于 群体 而 言 ， 这 种 集中 个 体 智 茵 的 机 制 往往 是 共同 的 
经 验 、 习 俗 、 文 化 、 潜 移 默 化 的 规则 等 。 生 活 中 对 地 震 灾 害 的 抵御 、 
股市 涨 落 、 通 货 脱 胀 、 流 行 与 时 尚 、 合 歌 按 照 网 页 链接 次 数 进行 排序 
的 算法 等 ， 都 是 组 织 智慧 的 例子 。 


群体 是 人 类 应 对 目 然 和 社会 挑战 ， 推 动 社会 发 展 和 进步 的 
选择 。 在 面 对 复 杂 性 问题 时 ， 群 体 智能 做 出 的 抉择 往往 是 解决 问题 的 
最 住 方案 。 1907 年 弗朗西斯 -高 尔 顿 目次 试验 证 明 :， 群体 在 某 些 情况 下 
可 产生 超越 专家 的 乔 甘 。2004 年 ， 索 罗斯 基 : 詹 姆 斯 在 《群体 智能 ， 如 
何 做 出 聪明 的 决策 》 一 书 中 指出 :“ 在 适当 的 环境 下 ， 团 体 在 智力 上 的 
表现 非常 突出 ， 而 且 通 常 比 团体 中 最 聪明 的 人 还 也 明 。*” 在 群体 智能 中 
有 不 同 的 侧重 点 ， 有 的 是 解决 问题 的 优越 性 ， 有 的 十 获 取信 息 的 能 
力 ， 有 的 是 解决 问题 的 高 效 性 和 稳定 性 ， 其 中 最 基本 的 是 优 于 个 体 或 
个 体 总 和 的 智 太 和 能 


开放 式 群 体 在 面 对 问题 时 更 容易 做 出 好 的 决策 。 在 封闭 式 
的 群体 聚集 中 ， 成 员 在 不 和 谐 的 音调 出 现时 会 表现 出 排 异 的 现象 ， 表 
面 上 看 来 是 群体 成 员 受 到 威胁 时 ， 会 努力 维护 群体 利益 而 展现 出 积极 
群体 感 ， 这 种 高 凝聚 力 的 群体 往往 呈现 出 隔离 状态 ， 缺 乏 对 新 兴 事 物 
的 兴趣 ， 对 于 找 出 一 个 更 好 的 解决 方法 感到 压力 而 选择 言 目 服 从 领 
导 ， 失 去 竞争 力 。 开 放 性 的 群体 在 社会 化 活动 中 ， 通 过 社会 化 学 习 和 
个 体 学 习 产 生 多 样 化 想法 ， 这 些 想 法 在 群体 做 决策 的 过 程 中 起 到 不 可 
或 缺 的 作用 。 


群体 之 中 存在 智慧 ， 但 并 非 在 任何 时 候 都 能 够 产生 高 超 的 
群体 智能 。 当 前 ， 群 体 中 个 体 的 参与 性 、 个 体 特征 的 多 样 性 与 独立 
性 、 群 体 规模 、 群 体内 部 派系 之 争 的 大 小 ， 以 及 是 否 有 适宜 的 观点 处 
理 机 制 ， 都 被 认为 是 群体 智能 的 主要 影响 因素 ， 和 群体 智能 的 实现 过 程 
征 一 群 有 痢 不 同 动机 和 不 同 目标 的 个 体 集 体 创作 的 过 程 。 这 是 一 个 好 
的 现象 ， 群 体 的 多 样 性 将 在 很 大 程度 上 保证 观点 的 独立 ， 增 加 创意 的 
数量 ， 丰 富 创 意 的 类 型 。 实 验证 明 ， 和 群体 的 观点 最 初生 很 明智 的 ， 但 
在 他 们 受到 来 目 群 体 中 其 他 人 或 是 周边 个 体 的 影响 后 ， 极 易 出 现 “ 群 体 
迷 思 ”和 “群体 极 化 ”等 问题 。 群 体 迷 思 是 指 ， 为 了 维护 群体 的 和 谐 ， 群 
体 中 的 成 员 常 会 忽略 目 己 最 初 的 决策 ， 选 择 言 从 和 附和 ， 由 此 形成 群 
体 观点 的 一 致 或 雷同 ， 必 定 会 降低 群体 智能 的 质量 。 群 体 极 化 是 比 群 
体 迷 思 更 为 严重 的 认 知 侦 差 ， 这 种 现象 在 网 络 环境 下 基于 趣 绿 组 成 的 
群体 中 更 易 产 生 ， 群 体 极 化 是 一 种 不 理性 的 决策 ， 它 会 引领 着 群体 育 
离 最 佳 的 决策 ， 辐 着 更 加 保守 或 激进 ， 更 为 冒险 的 方 同 侦 移 。 针 对 这 
些 问题 ， 索 罗斯 基 主张 以 目 组 织 的 分 权 化 管理 来 保证 群体 智能 的 质 


量 。 


群体 规模 与 群体 稍 能 呈正 相关 关系 。 和 社会 学 家 觉得 当前 的 群体 智 
能 大 体 分 为 两 种 : 无 意识 的 和 有 意识 的 。 社 会 网 络 和 媒体 网 站 中 留 下 
的 用 户 观 点 、 购 买 记录 、 评 级 和 议论 ， 以 及 由 此 建立 起 来 的 网 络 人 际 
和 关系， 都 属于 无 意识 的 群体 智能 ， 而 有 意识 开展 和 形成 的 群体 规模 ， 
则 和 是 有 意识 的 群体 智能 ， 两 种 群体 智能 都 可 以 解决 问题 ， 但 无 意识 的 
群体 智能 水 平 则 相对 较 低 。 因 此 ， 为 保证 群体 智能 的 实施 效果 ， 需 要 
根据 决策 对 象 选择 形成 与 之 匹配 的 群体 智能 ， 当 要 解决 诸如 城市 规 
划 、 气 候 适 应 与 改善 、 维 护 世 界 和 平 之 类 问题 的 时 候 ， 往 往 需 要 用 户 

意识 地 参与 ， 通 过 高 阶 认 知 提供 高 水 平 的 群体 剧 能 。 很 早 碟 有 人 指 
出 : 规模 过 小 的 群体 无 法 实现 科学 的 群体 决策 ， 规 模 较 大 的 群体 解决 
问题 的 能 力 更 强 。 
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第 二 入 
群体 学 习 : 从 个 体 智 能 到 群体 智能 


(一 ) 个 体 智 能 的 局 限 


人 工 智 能 深入 人 类 智能 活动 ， 使 智能 体 具有 丰富 而 深刻 的 
社会 内 涵 。 智 能 体 表 现 出 人 类 智能 的 复杂 性 和 多 样 性 ， 突 破 了 传统 
人 工 智能 研究 单纯 注重 个 体 智 能 而 刻意 回避 由 社会 互动 而 产生 的 集体 
智能 的 历史 局 限 性 。 智 能 体 在 感知 当前 环境 状态 ， 对 环境 采取 试探 行 
为 ， 根 据 环境 的 反馈 来 不 断 修 改 从 状态 到 动作 的 映射 策略 ， 最 终 学 会 
应 对 所 有 环境 状态 的 反应 策略 。 通 过 智能 搜索 、 关 联 融 合 、 目 沿 活 以 
及 热点 减 量化 后 ， 智 能 体 发 现 数据 间 的 规律 ， 通 过 学 习 变 得 很 智慧 ， 
基本 能 够 实现 一 定 范 围 内 的 像 人 一 样 思 考 ， 但 是 要 开发 一 个 无 所 不 
知 、 无 所 不 能 的 通用 型 人 工 智 能 ， 那 吏 太 复杂 了 “。 单 个 智能 体 在 信息 
的 获取 能 力 、 处 理 能 力 、 控 制 能 力 等 方面 都 是 有 限 的 ， 对 于 复杂 的 工 
作 任 务 及 多 变 的 工作 环境 ， 单 个 养 能 体 的 能 力 显 得 不 足 。 


人 工 智 能 在 考虑 与 人 类 智能 的 类 比 时 ， 具 有 规范 化 、 可 重 
复 性 和 逻辑 性 的 特点 。 规 范 化 是 指 人 工 智 能 目前 只 能 处 理 结构 化 信 
尽 的 事实 ， 也 就 是 说 ， 程 序 的 输入 必须 符合 某 些 规 苑 。 重 复 性 十 指 人 
工 闹 能 的 机 械 性 质 。 由 于 计算 机 具有 强大 的 计算 能 力 和 非 生物 特性 ， 
重复 性 工作 不 会 降低 机 器 的 效率 或 准确 性 。 逻 辑 性 意味 着 人 工 智能 在 
处 理 符号 化 的 问题 上 有 优势 ， 处 理 一 些 离散 的 任务 时 会 更 好 ， 而 不 是 
目 己 发 现 或 打破 规则 。 


智能 体 的 逻辑 理性 要 求 它 没 有 目 我 冲突 的 目标 ， 主 要 由 “合乎 逻 
辑 ” 的 信念 、 意 图 、 推 理 机 制 等 组 成 ， 并 为 此 提出 了 各 种 逻辑 体系 。 这 
样 ， 从 概念 的 角度 来 看 ， 逻 辑 理性 实现 了 理性 的 推理 环 丰 ， 但 对 于 一 
个 明显 处 于 动态 环境 中 ， 货 源 有 限 的 智能 体 来 说 ， 不 仅 需要 这 种 理性 
的 推理 ， 更 重要 的 是 值得 去 做 这 种 推理 并 能 获得 最 大 收益 。 这 束 很 目 
然 地 将 严格 的 理性 目 利 假设 引入 稚 能 体 研 究 中 ， 并 被 视 作 智能 体 参与 
社会 互动 的 “理性 基础 ”。 在 智能 体 的 博 奔 论 方法 中 ， 这 种 理性 是 在 个 
人 目 利 的 假定 与 给 定 的 约束 条 件 下 达到 个 体 效 用 的 极 大 化 ， 其 效用 值 
则 根据 信念 、 愿 望 和 偏好 通过 赋予 不 同 的 概率 数值 而 得 到 。 


如 果 智 能 体 仅 以 效用 原则 从 严格 目 利 的 理性 假设 出 发 通过 社会 博 
歼 来 实现 其 整体 效用 ， 那 么 ， 根 据 同一 假设 ,个 体 在 互动 中 义 必 然 会 
首先 以 优化 它 自己 的 效用 来 采取 策略 。 这 样 ， 就 可 能 会 产生 一 些 间 
题 : 首先 ， 在 传统 方法 中 ， 出 于 个 体 智能 的 特征 ， 其 决策 原则 可 以 是 
单一 的 、 完 备 的 。 但 在 一 个 开放 的 智能 体 社 会 中 ， 它 的 决策 原则 更 应 
根据 多 元 准则 而 不 仅仅 是 一 个 单一 的 效用 原则 来 进行 ， 其次， 在 现实 
的 博 询 过 程 中 ， 知 能 体 如 果 按照 完全 理性 来 进行 博 神 ， 则 往往 达 不 到 
社会 效用 的 由 素 托 最 优 状 态 。 另外， 即便 这 种 整体 最 优 能 够 实现 ， 其 
博 奔 次 数 将 十 分 惊人 ， 无 法 在 一 个 有 限 与 有 效 的 次 数 内 完成 。 同 时 ， 
博弈 者 的 数量 也 受到 相当 的 限制 ,无 法 达到 智能 体系 统 所 预 设 的 规 
模 。 而 且 ， 这 种 博 诊 始终 要 求 是 同一 群 博 宰 者， 而 不 是 多 稼 能 体系 统 
中 数量 在 不 断 变化 的 开放 的 博弈 群体 。 并且， 它 还 会 出 现 许 多 个 均衡 
解 ， 而 无 法 实时 地 提供 唯一 的 最 优 解 。 


现实 世界 中 的 协商 大 多 是 在 动态 、 非 对 称 、 非 完全 信息 下 
进行 的 。 对 任何 个 体 来 说 ， 其 知识 都 是 一 种 局 域 性 知识 ， 而 社会 智能 
的 实现 却 忌 是 有 赖 于 社会 互动 中 知识 与 信息 的 共 至 及 能 力 的 协调 ， 那 
么 何 种 合作 性 博 罕 才能 在 诸多 不 对 称 条 件 下 实现 由 个 体 局 域 知 识 到 社 
会 整体 的 知识 共 至 一 一 进而 克服 一 直 困 扰 着 诸多 人 研究 者 的 “共同 知 
识 ” 难 题 并 最 终 获 得 最 优 解 ? 此外， 社会 中 的 个 体 理 性 大 多 是 以 综合 其 


目 身 微观 效用 和 社会 宏观 效用 的 复杂 的 “ 折 中 ”理性 来 进行 决策 。 实 际 
博弈 中 的 个 体 理 性 要 比 目 前 描述 的 理论 复杂 微妙 得 多 ， 且 完全 无 法 由 
目前 狭隘 的 “理性 ”所 包容 和 处 理 ， 那 么 从 目 利 理性 出 发 义 达 不 到 共同 
知识 的 群体 博 畦 又 怎样 才能 达到 整个 社会 效用 的 完美 均衡， 而 不 至 于 
陷入 类 似 于 囚徒 困境 的 结局 中 呢 ? 依照 古典 经 济 学 观点 ， 在 没有 全 局 
协调 者 的 情况 下 ， 即 使 每 个 主体 都 挛 格 按照 目 利 的 理性 行动 ， 也 有 可 
能 出 现 如 亚当 -斯 密 所 请 的 “看 不 见 的 手 ” 的 驱使 ， 达 到 个 人 理性 与 集体 
理性 的 并 行 不 怪 。 按 照 当 代 集 体 先 择 理 论 ， 个 体 理性 并 非 是 实现 集体 
理性 的 充分 条 件 ， 在 博 列 中 ， 如 采 发 生 现实 中 常常 出 现 的 诸如 共同 知 
识 、 举 至 其 成 、 社 会 激励 失效 、 因 徒 困境 等 问题 时 ， 则 无 论 个 体 理 性 
如 何 完美 地 构造 及 执行 ， 社 会 整体 理性 的 最 优 均衡 也 绝 不 会 出 现 。 因 
此 ， 在 描述 这 种 大 规模 频 党 合作 的 社会 行为 时 ， 除 了 其 巨大 的 社会 区 
易 成 本 的 制约 外 (在 这 里 我 们 不 做 深入 的 讨论 ， ， 现 成 的 博弈 论 特别 
是 其 理性 基础 有 着 十 分 明显 的 不 足 。 这 样 ， 除 非 我们 对 理性 (如 有 限 
理性 、 交 互 理性 等 ) 进行 更 为 深入 的 探究 并 重新 开发 出 更 为 有 力 的 新 
理论 ， 否 则 将 给 智能 体 理 论 市 来 某 些 难 以 元 服 的 问题 。 


最 后 ， 当 我 们 把 逻辑 理性 和 经 济 理性 联系 起 来 看 时 ， 使 用 符号 推 
理 的 逻辑 理性 无 法 使 决策 效用 最 优化 ， 使 用 数值 计算 的 博弈 理性 叉 忽 
视 了 理性 的 逻辑 推理 。 如 何 较 好 地 协调 这 两 种 机 制 ， 实 质 上 是 如 何 协 
调 好 逻辑 推理 的 必然 性 与 决策 中 的 不 确定 性 ， 这 显然 又 是 一 个 十 分 艰 
难 的 问题 。 


(二 ) 从 生物 群体 到 机 器 人 群体 


在 过 去 的 30 多 年 间 ， 越 来 越 多 的 哲学 家 、 认 知 科学 家 意识 到 ， 心 
智和 智能 的 个 体 观 片面 强调 了 单一 主体 反映 和 改造 世界 的 能 动 性 ， 低 
佑 了 主体 在 与 他 者 、 外 部 工具 的 协同 交互 中 展现 的 智能 ， 忽 视 了 智能 


本 质 上 也 具有 社会 性 、 历 史 性 和 文化 性 。 戈 德 曼 在 社会 认识 论 人 研究 中 
长 期 探索 人 类 知识 如 何 通过 人 人际 交流 、 信 息 交 换 、 社 会 交往 而 得 到 增 
进 。 辩 护 信 念 的 理由 不 仅 包 括 个 人 的 证 据 ， 也 包括 他 人 证 词 、 认 知 畏 
助 技 术 和 认 知 分 工 等 。 类 国 加 州 圣迭戈 大 学 的 认 知 科学 家 哈 钦 斯 等 人 
在 借鉴 认 知 人 类 学 和 维 果 斯 基 心 理学 的 基础 上 研究 了 美国 海军 舰艇 上 
的 船员 征 如 何 各 目 分 工 共同 执行 认 知 任务 的 ， 从 而 主张 一 种 “分 布 式 认 
知 ” 的 进 路 ， 即 智能 系统 具有 在 多 主体 和 环境 间 分 布 的 本 质 。 克 拉克 和 
查 尔 英 斯 提出 的 “延展 心 铭 观 ” 从 外 在 主义 的 视角 诠释 了 天 于 心 剧 本质 
的 反 个 体 主义 理解 。 他 们 认为 ， 心 智 不 仅仅 在 个 体 的 大 脑 中 ， 也 分 布 
至 个 体 的 身体 甚至 超出 体 肤 延展 至 外 在 环境 。 从 物理 空间 上 讲 ， 智 能 
主体 并 非 只 是 具有 脑 结构 的 生物 个 体 ， 而 是 “大 脑 一 身体 一 工具 (机 
器 ) 一 环境 ”相互 嵌入 的 耦合 系统 。 


从 历史 维度 上 看 ， 灵 长 类 动物 生成 智能 所 经 历 的 7 万 年 以 上 物 壳 天 
择 的 进化 史 是 以 种 群 为 单位 的 。 更 重要 的 征 ， 智 能 本 质 上 已 经 被 塑造 
成 个 体 、 他 者 、 环 境 在 社会 文化 背景 下 共同 的 认 知 实践 。 综 观 而 
论 ,，“ 社 会 认识 论 “ 分 布 式 认 知 ”“ 延 展 心 闹 ”等 新 动 同 深刻 影响 着 我 们 
面 问 智能 科学 的 研究 视 春 。 在 人 工 入 能 领域 的 新 近 研 究 中 ， 人 研究 者 也 
试图 超越 传统 在 实验 室 中 人 研究 纯 机 器 人 ， 从 关注 大 脑 神经 状态 扩展 至 
外 部 世界 ， 从 关注 发 生 在 个 体 喘 上 的 心理 表征 与 过 程 转 向 群体 的 社会 
背景 以 及 人 机 交互 的 赛 博世 界 ， 进 而 寻求 模拟 人 类 或 动物 在 群体 协同 
的 环境 中 所 表现 出 来 的 整体 智能 。 


人 类 大 脑 是 一 个 典型 的 复杂 系统 。 人 脑 之 外 ， 没 有 一 个 自然 
或 人 工 系 统 能 够 具有 对 新 环境 和 新 挑战 的 自 适 应 能 力 、 新 信息 与 新 技 
能 的 自动 获取 能 力 、 在 复杂 环境 中 进行 有 效 决 策 并 稳定 工作 几 十 年 的 
能 力 ， 没 有 任何 系统 能 够 在 多 处 损伤 的 情况 下 保持 像 人 脑 一 样 的 鲁 棒 
性 ， 在 处 理 同样 复杂 的 任务 时 ， 没 有 任何 人 工 系统 能 够 媲美 人 脑 的 低 
能 耗 性 。( 忆 虽然 每 个 神经 元 只 具备 简单 的 放电 功能 ， 但 是 千 万 个 神经 
元 通过 异常 复杂 的 相互 联结 和 作用 构成 了 智慧 的 大 脑 。 但 是 智慧 并 不 


征 只 有 人 类 进行 复杂 运动 才 会 体现 出 来 ， 人 简单 生物 体 的 相互 作用 也 能 
体现 出 智慧 。 


凤 以 通过 敏 铣 的 嗅觉 发 现 食 物 ， 并 通过 个 体 之 间 的 某 种 沟通 方 
式 ， 探 求 寻 找 食物 的 最 佳 路 径 。 当 环境 发 生变 化 时 ， 如 出 现 障 碍 物 阻 
断 了 最 优 通路 ， 蚂 蚁 又 能 很 快 目 发 找到 最 新 路 径 。 信 息 聚 是 蚂蚁 群体 
之 间 的 想法 流 。 其 他 蚂蚁 在 收 到 第 一 只 蚂蚁 传播 的 信息 素 时 ， 就 会 跟 
随 第 一 只 蚂蚁 的 路 径 寻 找 食物 ， 并 在 往 回 搬运 食物 的 同时 传播 信息 
素 。 假 设 从 桌 六 到 食物 之 间 有 两 条 路 径 ， 一 条 长 一 条 短 。 由 于 信息 于 
会 随时 间 逐 渐 挥 发 ， 长 度 较 长 的 路 径 在 挥发 挥 信息 素 的 同时 得 不 到 新 
的 信息 素 更 新 。 那 条 较 短 的 路 人 径 由 于 被 重复 的 次 数 较 多 ， 故 而 记录 下 
更 浓 的 信息 聚 ， 于 是 有 更 多 的 蚂蚁 被 吸引 过 来 ， 从 而 进一步 加 强 这 条 
路 上 的 信息 素 。 就 这 样 ， 通 过 信息 素 的 相互 作用 ， 蚂 蚁 找到 连接 食物 
和 巢穴 之 间 的 最 短路 径 。 


智能 群体 是 指 大 量 低 智能 个 体 通过 个 体 之 间 的 局 部 相互 作 
用 使 得 群体 表现 出 高 智能 的 社会 化 系统 。 智 能 群体 具有 两 个 显著 
的 特征 : 一 个 是 个 体 的 低 智 能 ， 但 以 群体 为 单位 表现 出 超过 个 体 智 能 
总 和 的 高 智能 ， 二 是 虽然 每 个 个 体 都 有 目 私 性 ， 但 在 群体 解决 问题 时 
体现 出 利他 性 的 协作 。1911 年 ， 一 篇 爆炸 性 短文 (刊登 在 《形态 学 灯 
志 》 上 的 《作为 有 机 体 的 蚁 群 》) 中 ， 惠 勒 断 言 ， 无 论 从 哪个 重要 且 
科学 的 层面 上 来 看 ， 昆 虫 群体 都 不 仅仅 类 似 于 有 机 体 ， 它 就 古 一 个 有 
机 体 。 他 写 道 :就 像 一 个 细胞 或 者 一 个 人 ， 它 表现 为 一 个 一 元 整体 ， 
在 空间 中 保持 目 己 的 特性 以 抗拒 解体 .…... 既 不 是 一 种 物事 ， 也 不 是 一 
个 概念 ， 而 是 一 种 持续 的 波 涌 或 进程 。( 思 智能 群体 通过 自身 的 调控 在 
变化 莫 测 的 环境 中 以 目 身 为 参考 系 不 断 协同 运作 达到 一 个 新 的 稳定 状 
态 。 和 群体 中 的 每 个 个 体 决 策 与 行动 是 各 目 独 立 的 ， 独 立 进 行 各 目的 更 
新 调 厂 ， 没 有 先后 顺序 ， 属 于 异步 并 行 操作 。 同 时 ， 群 体 拥有 强大 的 
维持 平衡 的 能 力 ， 不 会 因为 某 个 个 体 的 死亡 或 受 损 使 得 整个 群体 混乱 
或 朋 浇 。 


群体 机 器 人 是 一 种 特殊 的 多 机 器 人 系统 ， 通 常 是 由 许多 目 
主 的 机 器 人 组 成 ， 具 有 典型 的 分 布 式 系统 特征 。 与 一 般 的 多 机 
器 人 系统 所 具有 的 任务 规划 和 指派 等 高 级 关 能 不 同 ， 群 体 机 器 人 技术 
更 加 注重 研究 结构 简单 且 能 力 有 限 的 机 器 人 人 个体。 个 体 通过 局 部 交互 
和 群体 控制 ， 涌 现 出 群体 智能 以 合作 完成 相对 复杂 的 任务 。 由 于 群体 
机 各 人 系统 在 简单 性 、 重 棒 性 、 适 应 性 上 具有 的 独特 优势 ， 其 应 用 前 
景 是 非常 广阔 的 。 所 以 ， 了 解 群体 的 机 右 个 体 之 间 如 何 通 过 目 组 织 的 
协调 完成 任务 以 及 个 体 行为 如 何 影响 群体 行为 是 非常 有 必要 的 。 


生物 群体 的 跟随 和 保持 同步 是 群体 背后 的 隐 秩 序 ， 是 机 器 
群体 的 实现 基础 。 寻 找 隐 藏 群体 秩序 是 发 现 群 体 智能 的 关键 。 过 
去 ， 人 们 认为 昆虫 群 、 鱼 群 或 者 乌 群 是 通过 某 种 第 六 感 ， 或 者 通过 茶 
种 “群体 意识 ”实现 其 惊人 的 协调 一 致 的 运动 ， 在 群体 中 的 个 体 以 牺牲 
个 性 为 前 提 ， 成 为 群体 意识 的 倪 偏 。 然 而 随 着 复 洒 性 科学 的 发 展 ， 动 
物 学 家 发 现 这 种 群体 行为 并 不 是 像 之 前 认识 的 那样 。 在 群体 中 ， 相 邻 
成 员 之 间 通 过 人 简单 规则 的 相互 作用 ， 目 然而 然 地 表现 出 群体 的 有 序 
性 。 科 学 家 不 断 地 实践 证 明 ， 跟 随和 保持 同步 于 隐藏 在 群体 育 后 的 秩 
序 ， 是 引导 群体 做 出 智能 化 行为 的 原因 。 


昆虫 群体 智能 研究 葛 定 了 人 工 闹 能 遗传 算法 的 基础 。 遗 传 算法 没 
有 把 学 习 分 为 训练 和 执行 ， 而 是 在 执行 中 学 习 。 昆 虫 无 须 大 脑 的 干 
预 ， 在 一 定 规则 下 ， 仪 香 四 肢 和 关节 的 协调 束 能 够 适应 环境 ， 在 群体 
层面 涌现 出 乔 能 。 这 样 的 智能 不 是 源 于 目 上 而 下 的 复 洒 设计 ， 而 是 源 
于 目下 而 上 与 环境 的 互动 。 生 物体 对 环境 的 适应 会 迫使 生物 进化 ， 实 
现 从 简单 到 复杂 、 从 低 等 到 高 等 的 跃迁 。 


2014 年 ， 哈 佛 大 学 的 研究 人 员 设 计 了 一 个 叫 Kilobot (云集 机 器 
人 ) 的 机 器 人 系统 ， 由 1 024 个 小 型 机 器 人 组 成 ， 它 们 在 没有 人 类 帮助 
的 情况 下 ， 有 序 地 、 目 组 织 地 形成 复杂 的 二 维 形 状 。 人 研究 人 员 在 设计 
的 时 候 加 入 了 一 个 包含 三 种 初级 集体 行为 的 目 组 织 算 法 ， 这 三 种 行为 


包括 : 机 器 人 沿 着 群体 的 边缘 移动 ， 机 侨 人 能 够 产生 梯度 信息 并 发 送 
给 其 他 机 人 妖 人 ; 机 器 人 通过 通信 和 和 距离 检测 来 定位 ， 群 体 中 的 每 个 机 
器 人 都 具有 相同 的 算法 程序 ， 知 晓 期 户 的 二 维 形状 。 在 机 器 人 实体 设 
计 和 算法 设计 的 基础 上 ， 人 研究 人 员 用 大 规模 机 大 人 群体 实现 了 目 然 界 
中 生物 所 具有 的 通过 集体 行为 形成 复杂 结构 的 能 


群体 中 的 每 个 个 体 都 尽力 执行 给 定 的 行为 规则 ， 从 而 群体 
产生 逐 层 而 上 的 有 序 行为 。 我 们 知道 ， 智 能 群体 中 个 体 的 智能 性 很 
低 ， 但 是 它们 都 具有 保护 目 身 利益 的 理性 ， 期 望 目 身 的 利益 能 够 最 大 
化 。 这 些 目 私 个 体 的 损 己 利他 行为 ， 我 们 称 之 为 合作 。 不 难 想象 ， 如 
果 每 个 个 体 都 只 顾 目 己 的 利益 ， 不 愿 与 其 他 个 体 合 作 ， 不 执行 给 定 的 
行为 规则 ， 那 么 整个 群体 束 会 陷入 混乱 与 崩溃 ， 从 而 不 会 产生 整体 上 
的 有 序 行为 ， 整 个 群体 的 养 能 性 也 整 失 去 了 根基 。 因 此 ， 群 体 中 时 刻 
保持 合作 性 是 维系 整个 群体 智能 性 的 必要 前 提 。 


(三 ) 群体 机 器 人 的 行为 协作 


如 何 超越 个 体 ， 最 优化 整合 不 同 个 体 的 智能 ， 消 现 出 安 观 的 群体 
智能 ? 不 难 发 现 ， 无 论 在 目 然 界 还 是 人 类 社会 ， 个 体 希 能 的 聚合 并 不 
必然 产生 更 高 的 群体 智能 ， 比 如 社会 心理 学 中 存在 着 个 体 智 能 聚合 产 
生 不 民 群 体 意 见 的 案例 。 个 体 的 样本 大 小 、 认 知 偏见 、 情绪 类 型 、 外 
在 环境 的 优 务 情况 等 在 群体 整合 中 都 发 挥 着 不 同 的 作用 ， 影 响 着 群体 
的 认 知 表现 。 当 前 ， 人 工 群 体 智 能 的 研究 主要 集中 在 对 具体 算法 的 优 
化 上 ， 对 于 复杂 世界 中 群体 智能 模型 构成 的 统一 规则 并 没有 足够 的 认 
识 。 虽 然 人 工 群 体 智 能 与 基于 单 主体 的 人 工 知 能 在 智能 层次 上 有 着 本 
质 差 别 ， 但 是 断言 人 工 群 体 智 能 已 经 是 一 种 通用 智能 仍 为 时 尚 早 。 


机 器 人 加 入 生物 群体 ， 同 样 能 够 产生 群体 行为 ， 并 且 机 器 
人 能 够 明显 地 影响 整个 生物 群体 的 行为 。2007 年 ，《 科 学 》 上 发 
表 了 一 篇 有 意思 的 论文 ， 其 研究 结果 受到 广泛 关注 。 人 研究 人 员 把 一 种 
丹 螂 机 器 人 混入 真 凡 螂 群体 中 ， 蜂 螂 机 器 人 外 形 上 不 像 丹 时 ， 只 是 在 
外 表 敷 了 与 真 凡 螂 身体 表面 的 化 学 组 成 成 分 类 似 的 图 层 ， 让 真 星星 确 
言 这 古 目 己 的 同类 。 贬 螂 成 群 活动 ， 喜 欢 墨 暗 。 写 们 的 行为 受 两 个 因 
素 的 影响 :伙伴 的 行为 和 环境 的 因素 。 当 面 对 明 上 暗 不 同 的 两 个 藏 映 地 
点 时 ， 科 学 家 控制 的 几 个 蜂 螂 机 磊 人 选择 了 亮 一 点 的 去 处 。 尽 管 行为 
稍 显 得 异常 ， 但 机 如 虹 螂 成 功 地 影响 了 整个 虹 螂 群 ， 其 他 的 蜂 螂 也 跟 
着 前 往 ， 实 验 结果 表明 ， 通 过 程序 控制 的 蝉 螂 机 器 人 能 够 明显 地 影响 
整个 群体 行为 。 人 简单 机 器 人 在 生物 群体 里 的 控制 问题 ， 对 于 人 研究 群体 
智能 的 理论 指导 有 巨大 价值 。 


在 复杂 或 开放 环境 中 ， 多 机 器 人 协调 系统 比 单 体 机 器 更 具 
有 优越 性 ， 如 并 行 性 、 柔 性 及 和 鲁 棱 性 。 目 前 的 机 器 人 技术 水 平 有 
限 ， 为 了 完成 一 个 开放 性 的 任务 ， 蜗 度 养 能 机 右 人 或 成 本 太 融 ， 或 难 
以 实现 ， 单 体 机 器 人 的 能 力 更 为 不 足 。 以 进行 团队 合作 的 名 义 ， 给 一 
组 特定 机 器 人 分 配 特定 的 任务 。 多 机 右 人 协作 能 够 在 不 同 的 工作 区 域 
和 时 间 同 时 作业 ， 利 用 机 器 人 功能 的 个 体 化 差异 更 好 地 协同 工作 。 多 
机 器 人 通过 共享 资源 信息 、 知 识 、 物 理 装 置 等 弥补 单 体 机 器 人 能 力 的 
不 足 ， 扩 天 完成 任务 的 能 力 范围 ， 系 统 利用 内 在 的 分 布 特性 提高 完成 
任务 的 效率 ， 利 用 系统 内 机 右 人 资源 的 匈 余 性 提高 完成 任务 的 可 能 
性 ， 增 强 系统 的 性 能 。 


多 机 严 人 协作 是 群体 智能 的 表现 形式 。 从 协作 的 方式 以 及 协调 性 
的 表现 形式 来 看 ， 协 作 可 分 为 两 种 类 型 有 意识 协作 和 无 意识 协作 。 
所 谓 有 意识 协作 是 指 多 个 机 器 人 通过 信息 交互 (包括 信息 交换 、 意 图 
协调 等 ) 来 协调 各 自 的 行为 ， 共 同 完成 某 一 任务 或 实现 共同 的 目标 。 
通 间 系统 中 的 机 右 人 具有 了 明确 的 协调 机 制 ， 用 于 对 其 他 机 天 人 的 行为 
进行 推理 ， 并 在 必要 时 进行 协商 。 


群体 机 器 是 许多 机 器 人 按照 一 定 的 结构 、 关 系 、 模 式 结合 
起 来 为 了 完成 某 一 项 目标 构成 的 一 个 整体 。 建 立 有 效 的 机 器 人 组 
织 结构 可 以 增强 机 器 人 群体 系统 的 协作 程度 。 机 絮 人 要 基于 一 定 的 集 
略 、 协 调 机 制 、 社 会 规则 等 有 机 地 组 织 起 来 ， 通 过 组 织 结构 知识 获得 
关于 系统 整体 行为 的 全 局 观 息 ， 从 而 采取 有 效 岳 上 略 引 导 局 部 控制 实现 
协作 。 组 织 结构 可 以 是 平行 的 、 递 阶 的 或 寓 合 型 的 ， 这 要 根据 具体 的 
任务 、 具 体 的 系统 进行 区 别 对 待 。 但 无 论 如 何 ， 组 织 结构 都 需要 具有 
不 同 分 目标 的 多 个 机 器 人 对 其 总 目标 、 闹 源 等 进行 合理 安排 ， 以 调整 
各 目的 行为 ， 尽 可 能 地 实现 共同 的 目标 。 


机 妖 人 个 体 行为 包括 对 环境 的 感知 、 学 习 、 啊 应 以 及 目 适应 动作 
的 协调 能 力 。 机 器 人 个 体 应 表现 出 较 强 的 协作 性 和 目 主 性 。 目 主 性 古 
指 机 器 人 应 具有 一 定 的 目 主 能 力 、 应 能 感知 环境 的 变化 并 作用 于 环 
境 ， 协 作 性 钙 指 机 器 人 协同 工作 的 能 力 。 系 统 的 协调 行为 在 很 大 程度 
上 依赖 如 何 处 理 机 万 人 的 目 主 与 协作 之 间 的 关系 。 
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第 三 节 
群体 空间 : 人 脑 智慧 和 机 锅 智 能 的 交互 


(一 ) 人 机 优势 互补 


和 肴 能 碰撞 十 激活 数据 学 中 数据 价值 的 宏观 涌现 的 过 程 。 目 激活 后 
的 智能 体 与 人 类 聚集 成 群体 网 络 ， 利 用 彼此 之 间 的 高 度 活 路 性 互相 融 
全 聚变 形成 创新 性 的 想法 ， 最 终 释 放大 量 的 数据 价值 。 将 人 类 引入 人 
系统 中 ， 可 以 实现 在 模糊 问题 中 的 分 析 啊 应 高 级 认 知 机 制 与 机 
系统 之 间 的 紧密 厦 合 ， 群 体 通 过 集成 人 类 感知 和 认 知 能 力 、 机 

十 算 和 存储 能 力 来 处 理 大 数据 时 代 的 结构 化 和 非 结构 化 数据 ， 二 者 
相互 天 应、 协作 ， 最 终 总 体 上 克服 各 目的 局 限 ， 达 到 完美 群体 的 效 


智能 体 通过 数据 的 智能 搜索 、 关 联 融 合 、 自 激活 、 热 点 减 
量化 后 能 够 更 快 、 更 好 发 现 规 律 知识 。 随 着 数据 的 迭代 ， 人 工 知 
能 能 够 更 好 地 学 习 人 类 几 和 于 年 来 发 展 与 进化 过 程 中 所 积累 的 完整 知 
识 ， 借 助 完整 知识 库 对 复杂 事物 进行 预测 与 判断 的 准确 度 越 来 越 
高 。“ 合 歌 大 脑 ”项目 利 用 谷歌 的 分 布 式 计 算 框架 和 大 量 的 人 工 神 经 网 
络 ， 在 没有 任何 先 验 知识 的 情况 下 ， 仪 仅 通 过 观看 无 标注 的 YouTube 
视频 ， 学 习 识 别 高 级 别 的 概念 ， 通 过 一 个 月 的 时 间 ， 吞 能 体 束 能 识 
别 “ 狂 ”。 

传统 心理 学 认为 人 类 智能 主要 体现 在 人 类 拥有 学 习 、 判 断 、 分 析 
的 能 力 ， 还 有 战略 、 博 诗 、 诀 策 、 统 筹 等 思维 能 力 ， 然 而 这 些 能 力 渐 
渐 补 人 工 吞 能 追赶 上 来 ， 就 连 最 变幻 英 测 的 围棋 ， 在 人 工 知 能 面前 都 


显得 那么 轻而易举 。 因 此 ， 人 机 优势 的 互补 将 推动 智能 机 融 更 主动 、 
更 有 意识 地 关联 周围 环境 ， 甚 至 对 未 来 有 所 期 许 和 规划 。 尤 其 在 一 些 
看 似 简 单 ， 但 需要 直觉 、 灵 感 、 顿 避 和 创造 性 思维 的 领域 ， 进 行 有 效 
的 直觉 判断 、 区 感 交 流 、 创 新 思维 。 至 于 将 已 有 的 知识 进行 综合 创 
新 ， 如 阿 基 米 德 在 洗 深 时 灵光 一 内 发 现 浮力 定律 、 和 牛顿 看 见 苹 采 落 地 
发 现 万 有 引力 则 是 人 工 状 能 的 下 一 个 愿景 。 机 器 学 习 与 人 的 交互 ,将 
进一步 让 我 们 理解 真实 的 世界 环境 ， 比 人 脑 更 好 地 处 理 不 完整 的 信息 
和 复杂 的 时 空 相关 任务 。 基 于 人 机 交互 的 机 器 学 习 系 统 将 尽 可 能 地 摘 
述 人 脑 在 认 知 因子 和 认 知 功能 的 频谱 中 的 相互 作用 ， 实 现 大 脑 神经 系 
统 的 高 可 塑性 。 


让 人 工 智 能 像 人 类 一 样 感知 和 理解 世界 。 当 前 ， 我 们 已 经 拥 
有 强大 的 计算 能 力 和 出 色 的 数据 搜集 能 力 ， 利 用 数据 进行 推理 这 一 问 
题 已 不 是 开发 先进 和 人工 知 能 道路 上 的 障碍 ， 但 这 种 推理 能 力 建立 在 数 
据 的 基础 之 上 。 接 下 来 ， 还 要 通过 人 机 互补 ， 让 人 工 智 能 进一步 感知 
真实 世界 。 相 比 之 下 ， 机 器 学 习 系统 只 是 按照 人 设计 的 程序 去 处 理 和 
分 析 输 入 的 信息 。 要 实现 具有 人 类 水 平 的 人 工 智 能 ， 机 器 需要 具备 对 
目 然 界 的 丰富 表征 和 理解 的 能 力 。 例 如 ， 阿 尔 法 狗 元 不 需要 学 习 大 量 
被 人 类 标注 过 的 样本 ， 只 需要 教会 它 围棋 的 基本 规则 ， 通 过 纯 强 化 学 
习 的 方法 ， 将 策略 网 络 和 价值 网 络 整 合 到 一 个 框架 中 ， 束 能 够 实现 人 
类 的 超越 ， 这 解决 了 片面 依靠 海量 大 数据 训练 模型 的 旧 模 式 ， 探 索 出 
了 人 工 入 能 发 展 的 新 模式 。 但 古 在 开放 环境 中 ， 人 工 状 能 应 对 环境 变 
化 的 能 力 还 是 比较 低 的 。 因 此 ， 如 果 没 有 人 机 互补 ， 人 类 犯错 后 的 水 
平 从 九段 降 到 八 段 ， 但 机 器 犯错 后 从 九段 降 到 零 。 


(二 ) 机 器 窟 能 进 阶 


物 的 数字 化 表达 ， 为 突破 人 机 交互 屏障 提供 了 可 能 。 最 初 
将 人 与 设备 连接 起 来 进行 交互 控制 的 媒介 ， 征 1868 年 美国 人 克 里 斯 托 
夫 . 拉 和 森 : 肖 尔 斯 发 明 的 打字 机 ， 也 是 键盘 最 早 的 和 雏形， 人 们 首次 通过 键 
盘 输 入 字符 命令 来 完成 人 与 计算 机 之 间 的 交流 控制 ， 到 1964 年 ， 美 国 
人 道格拉斯 :恩格尔 巴特 发 明 的 鼠标 帮助 人 们 用 设备 控制 计算 机 中 的 图 
形 界面 以 达到 人 机 交互 的 目的 ;， 再 到 1971 年 ， 美 国人 山姆 : 赫 斯 特 发 明 
的 一 种 提高 工作 效率 的 设备 ， 通 过 把 图 形 呈 现在 平板 界面 上 或 者 用 笔 
在 平板 上 施加 压力 后 完成 操作 控制 ， 产 生 了 最 早 的 触 控 屏 设 备 “Accu 
Touch”。 人 机 交互 控制 设备 经 过 键盘 、 鼠 标 、 触 控 屏 为 代表 的 发 展 历 
程 ， 使 用 手指 进行 操作 已 慢 慢 成 为 现 阶 段 主流 ， 手 势 、 语 首 识别 和 号 
势 识 别 的 交互 技术 也 在 逢 劲 发 展 ， 这 些 都 说 明了 科技 在 改变 人 们 的 生 
话 。 


脑 机 接口 的 出 更， 打破 了 第 规 人 机 互动 的 方式 。 脑 机 接口 是 建立 
人 脑 或 动物 脑 与 外 部 设备 之 间 的 信息 交换 的 连接 通路 。 现 阶段 脑 机 接 
口 已 经 实现 了 意识 打字 和 心灵 控制 ， 未 来 甚至 能 够 使 人 获得 更 强大 的 
感知 能 力 ， 比 如 将 非 人 类 感知 能 力 (感知 超声 波 、 感 知 磁场 ) 转变 成 
为 人 类 感知 能 力 。 电 脑 对 人 类 思维 意识 的 实时 准确 识别 ， 一 方面 有 助 
于 人 类 更 加 了 解 大 脑 的 活动 特征 ， 更 好 地 模仿 大 脑 以 产生 更 高 级 的 机 
器 智能 ， 另 一 方面 可 以 让 机 器 更 好 地 与 人 类 协同 。 集 体 的 碰撞 微 发 祝 
芝 ， 避 免 了 个 体 智 营 的 缺失 。 


人 类 情报 信息 处 理 机 制 有 两 个 方面 ， 一 种 是 目 然 进化 过 程 ， 它 要 
求人 类 智能 系统 能 够 对 环境 和 上 自身 的 状态 进行 建 模 ， 然 后 提供 一 个 模 
型 ， 形 成 风险 和 价值 的 度量 ， 男 一 种 是 “选择 性 注意 ”， 它 提供 了 一 个 
有 效 的 机 制 ， 全 面 判断 风险 或 价值 ， 并 在 复 洒 的 环境 沛 选 关 键 因 到 ， 
如 儿童 在 人 群 中 寻找 父亲 的 脸 。 在 许多 情况 下 ， 风 险 和 价值 判断 是 基 
于 持续 循环 思维 活动 的 预测 和 在 选择 基础 上 的 认 知 模型 、 验 证 思维 活 
动 的 发 展 和 改进 的 认 知 模式 ， 如 总 结 一 个 抽象 或 公式 化 的 经 验 作 为 一 
个 定理 。 人 类 智能 进化 过 程 中 ， 除 了 共性 特征 外 ， 还 至 现 个 体 体 验 


(记忆 ) 、 价 值 取 向 (心理 因素 ) ， 甚 至 是 微观 分 化 的 “神经 表达 ”等 
个 别 差 异 。 例 如 ， 在 不 同 的 人 脑 中 ， 同 一 张 面孔 的 表现 可 能 不 同 。 激 
活 数 据 学 的 5 个 步 又 可 以 利用 生物 智能 的 认 知 模型 来 完成 * 建 模 ” 的 过 
程 ， 并 形式 化 其 表达 方式 。 最 后 ， 利 用 现代 计算 机 的 优点 来 实现 有 效 
的 协同 计算 。 


人 机 智能 碰 擅 能 够 使 机 器 实现 认 知 目标 。 以 一 个 特定 的 认 知 
任务 作为 出 发 点 或 目标 ， 智 能 体 与 人 的 交互 实现 目下 而 上 基于 感知 的 
选择 性 注意 ， 同 时 在 智能 体内 部 的 机 套 学 习 能 够 实现 目 上 而 下 基于 规 
则 的 选择 性 注意 ， 在 这 两 种 选择 性 注意 的 述 代 下 ， 和 状 能 体 根据 满足 客 
观 的 任务 所 需 的 信息 ， 逐 渐 开 始 一 种 思维 活动 ， 而 不 是 只 限于 以 知识 
为 基础 的 处 理 。 面 对 缺乏 经 验 的 问题 ， 智 能 体 有 一 个 循环 欠 代 因 采 模 
型 ， 它 会 目 动 提问 诸如 下 一 步 该 怎么 办 ? 它 产 生 了 预期 的 结 采 吗 ? 是 
人 否 要 进行 进一步 的 努力 或 等 试 其 他 方法 ? 在 这 样 一 个 过 程 中 ， 对 环境 
的 理解 和 指导 是 基于 推理 和 经 验 (长 期 记忆 ) 而 丰富 起 来 的 ， 并 相应 
地 增强 了 “验证 ”的 能 力 。 利 用 因果 模型 的 后 验 概率 (观察 ) 来 更 新 先 
验 概率 (预测 ) ， 根 据 给 定数 据 的 概率 分 析 、 时 间 与 空间 想象 或 预测 
来 完成 天 联 分 析 〈 例 如 随 着 时 间 的 推移 空间 变化 ) ， 提 供 对 环境 或 情 
况 的 理解 、 补 充 和 判断 。 应 用 先 验 知识 来 丰富 数据 的 推理 ， 达 到 民 好 
的 泛 化 能 力 和 快速 的 学 习 速 度 。 


智能 碰 擅 实现 了 人 类 决策 与 机 器 智能 的 逻辑 推理 、 演 绎 推 
理 的 优势 结合 。 人 类 决策 依赖 直觉 判断 和 理性 判断 ， 研 究 表明 ， 人 
类 直觉 判断 的 平均 准确 度 高 于 理性 判断 。 直 觉 是 人 脑 中 的 一 系列 过 
程 ， 包 括 高 速 分 机 、 反 饼 、 决 策 ， 人 类 在 日 常生 活 中 通过 直觉 做 出 许 
多 决定 ， 比 如 判断 两 个 物体 的 接近 度 ， 从 别人 的 音调 感知 友好 程度 ， 
选择 伴侣 或 图 书 。 直 觉 性 的 决策 不 仅 是 常识 ， 它 需要 更 多 的 传 感 硕 来 
感知 外 部 的 信息 ， 对 这 些 狐 信息 编码 、 组 合 ， 并 与 昌 信 息 做 对 比 ， 当 
新 旧 信 息 之 间 达 到 某 种 程度 的 相似 性 时 ， 人 们 可 以 利用 这 种 相似 性 来 
更 好 地 理解 新 信息 。 直 和 觉 帮助 人 类 在 复杂 和 动态 的 环境 中 做 出 快速 的 


决定 ， 大 大 减少 了 在 解决 问题 的 过 程 中 的 搜索 空间 ， 人 类 认 知 过 程 变 
得 更 加 有 效率 。 


人 机 智能 磁 擅 能 够 辅助 机 器 实现 认 知 、 决 策 的 优化 。 人 类 
的 直觉 推理 与 大 脑 的 先 验 知识 处 理 能 力 密切 相关 。 这 种 能 力 基 于 抽象 
和 沁 化 的 记忆 ， 而 不 是 先前 知识 的 死记 便 背 。 因 为 人 类 拥有 这 种 能 
力 ， 人 类 的 直觉 可 以 做 出 快速 、 精 准 的 决策 。 虽 然 机 器 具有 符号 计算 
的 能 力 和 人 脑 无 法 匹配 的 存储 容量 ， 但 现 有 的 机 器 学 习 算 法 难以 实现 
上 述 功 能 ， 只 有 通过 搜索 尽 可 能 多 而 全 的 数据 ， 才 能 发 现 数据 之 间 的 
强 关 联 、 弱 关联 、 光 在 关联 关系 ， 从 而 激活 智能 体形 成 决策 空间 ， 热 
点 城 量 化 般 移出 较 优 秀 的 决策 。 


假如 直觉 决策 算是 决策 空间 最 优 解 ， 那 么 人 类 直觉 可 以 作为 智能 
体 决 策 初 始 迭 代 值 。 在 解决 简单 问题 时 ， 初 始 和 迭代 值 并 不 重要 。 在 解 
决 复杂 问题 时 ， 传 统 的 机 器 推理 方法 很 可 能 会 陷入 局 部 极 小 值 ， 直 池 
推理 可 以 提供 一 个 合理 的 初始 迭代 位 置 ， 从 而 可 以 在 很 大 程度 上 避免 
局 部 极 小 问题 。 真 实 的 决策 空间 通常 是 复杂 的 ， 结 构 上 也 无 法 界定 。 
因此 ， 初 始 适 代 位 置 的 选择 是 至 关 重 要 的 ， 甚 至 可 以 决定 最 终结 采 坪 
否 征 全 局 最 优 解 。 在 一 般 的 机 大 学 习 方法 中 ， 初 始 欠 代 的 位 置 通 稍 是 
牺牲 了 算法 的 泛 化 能 力 ， 例 如 引入 强 假设 和 增加 人 的 干预 ， 构 建 脑 司 
发 式 的 机 需 直 观 推 理 方 法 ， 可 以 避免 局 部 极 小 的 问题 ， 提 高 人 工 智能 
系统 的 泛 化 能 力 。 然 后 ， 我 们 可 以 明确 模型 的 不 确定 性 问题 。 直 觉 决 
策 并 不 寻求 找到 目标 解 位 置 的 绝对 解 ， 而 是 要 评估 偏离 基准 点 十 否 更 
有 利于 避免 损失 。 


阿尔 法 狗 的 成 功 可 以 看 作 机 器 直 饥 推理 应 用 的 成 功 范 例 。 阿 尔 法 
狗 的 解决 至 间 几 乎 不 可 能 耗 尽 ， 基 于 规则 或 穷尽 搜索 的 方法 不 能 使 阿 
尔 法 狗 程序 达到 人 类 级 别 。 它 的 直觉 反映 在 由 政策 网 络 和 价值 网 络 实 
现 的 “感觉 ?模拟 。 政 策 网络 是 快速 判断 移动 的 地 方 ， 即 可 以 考虑 是 否 


可 以 行动 。 价 值 网 络 评估 总 体位 置 。 阿 尔 法 狗 通过 海量 训练 ， 强 化 服 
务 器 和 机 器 学 习 来 获得 “感觉 ”去 缩小 搜索 空间 。 


(三 ) 人 机 社会 化 协作 


人 工 智 能 作为 人 类 感官 和 智力 的 延伸 ， 是 让 机 器 具备 人 类 
一 样 的 行动 能 力 及 思维 能 力 。 人 工 智 能 是 人 造 系 统 所 具有 的 一 种 
模仿 、 拓 展 和 超越 人 类 智能 的 能 力 。 当 人 造 系 统 能 够 像 人 一 样 具有 一 
定 的 认 知 能 力 ， 即 有 感知 、 会 分 机 、 目 决策 、 善 动作 ， 并 且 在 分 析 与 
决策 过 程 中 善于 运用 知识 ， 同 时 学 习 、 积 素 帮 至 创造 知识 ， 藉 称 其 具 
有 某 种 人 造 智 能 。 人 造 智 能 ， 包 含 了 所 有 由 人 开发 和 建立 的 人 造 系统 
的 和 闪 能 ， 例 如 源 于 信息 技术 领域 的 人 工 智 能 、 认 知 计算 、 互 联网 大 脑 
等 ， 以 及 源 于 制造 拉 术 领域 的 基于 传感器 和 目 动 化 技术 的 工业 智能 。 


19 世 纪 巴 贝 奇 发 明 计算 机 ， 企 图 用 机 需 奉 代 人 类 的 计算 能 力 ， 这 
征 技 术 进 化 到 延伸 人 类 智力 阶段 的 起 点 。20 世 纪 40 年 代 现 代 计 算 机 的 
出 现 是 技术 延伸 人 类 智力 的 重要 里 程 碑 。 现 代 计 算 机 最 初 只 具有 记 
忆 、 计 算 能 力 ， 后 来 逐渐 具有 了 远 辑 、 语 言 文字 处 理 、 谱 曲 、 辨 识 、 
认 知 、 区 流 等 多 种 智能 功能 。 遥 感 技术 、 全 球 定 位 系统 、 地 理 信 息 系 
统 以 及 目 动 观察 技术 和 数据 传输 处 理 技 术 的 结合 ， 正 在 不 断 拓 展 人 类 
对 地 球 的 观察 能 力 和 分 析 能 力 。 人 工 智能 的 出 现 与 发 展 的 目的 是 解放 
人 类 劳动 力 ， 让 人 类 更 能 适应 复杂 多 变 的 社会 环境 ， 让 生活 更 美好 。 


人 机 智能 碰 擅 正在 深刻 地 改变 人 类 之 间 的 关系 和 互动 模 
式 。 智 能 机 器 已 经 成 为 人 类 的 亲密 伙伴 ， 人 类 和 智能 机 器 之 间 的 相互 
作用 和 合作 将 成 为 我 们 未 来 社会 形成 的 组 织 部 分 。 在 人 工 智能 的 玫 助 
下 ， 人 类 解决 了 工程 技术 、 科 学 研究 和 人 类 社会 活动 的 各 个 领域 的 高 
复杂 性 、 不 确定 性 和 脆弱 性 的 问题 ， 并 不 断 推动 社会 的 发 展 。 合 理 、 


有 效 地 利用 人 工 智能 技术 ， 可 以 极 大 地 促进 有 价值 的 创新 ， 提 高 人 类 
和 机 器 的 竞争 力 。 因 此 ， 人 工 稼 能 不 再 是 孤立 的 ， 而 是 人 类 进化 的 一 


部 分 。 


为 了 充分 利用 有 限 质 源 ， 产 生 更 有 效 的 个 体 机 融和 闪 能 ， 育 集 机 套 
或 人 也 是 一 个 有 效 途 径 。 智 能 的 提升 一 方面 来 目 个 体 的 目 身 发 展 ， 必 
一 方面 来 目 群 体 之 间 的 交流 与 协作 。 多 人 工 稚 能 体 协作 、 共 同 决策 在 
电 商 、 游 戏 、 医 疗 健康 等 领域 中 人 类 不 擅长 的 复杂 问题 都 有 广泛 的 应 
用 前 景 。 个 体 机 器 乔 能 的 发 展 离 不 开 数 据 分 析 和 模型 搭建 ， 但 是 在 这 
个 过 程 中 ， 由 于 数据 的 有 效 性 、 模 型 的 完备 性 、 计 算 力 强度 等 不 均 
衡 ， 导 致 最 终 出 现 的 个 体 机 器 智能 参差 不 齐 。 在 学 习 过 程 中 ， 每 个 个 
体 机 器 稼 能 都 具有 个 性 化 的 知识 、 能 力 和 经 验 ， 在 相互 平等 、 资 源 互 
名 的 学 习 中 能 够 有 效 地 传承 和 发 挥 优势 。 这 征 在 围绕 同一 个 主题 下 开 
展 的 互相 分 享 、 相 互 局 发 的 过 程 ， 生 成 新 的 资源 ， 从 而 提高 个 体 机 器 
的 和 养 能 化 。 同 伴 之 间 相 互 学 习 可 以 获得 学 习 和 设计 经 验 ， 连 续 不 断 的 
学 习 过 程 和 干预 也 可 以 促进 个 体 智能 的 上 升 。 


人 类 对 开放 系统 中 不 确定 性 问题 的 分 析 和 认 知 与 机 器 超 强 
的 逻辑 性 和 计算 能 力 相互 耦合 ， 两 者 协同 完成 指定 任务 ， 达 到 
1+1>2 的 增强 智能 效果 。 人 是 智能 机 器 的 终极 “价值 判断 ”的 服务 对 
象 和 仲裁 者 ， 在 机 器 和 帝 能 进化 过 程 中 ， 人 类 对 机 帮 的 干预 一 直 存 在 。 
智能 系统 中 有 许多 需要 解决 的 问题 ， 比 如 在 人 机 交互 中 ， 机 器 如 何 理 
解 人 类 在 历史 进化 过 程 中 所 形成 的 语言 的 细微 差别 。 特 别 是 在 一 些 重 
要 的 应 用 中 避免 人 工 状 能 的 认 知 局 限 性 所 造成 的 风险 甚至 危害 ， 如 医 
疗 诊断 和 司法 审判 系统 。 为 了 解决 这 些 问 题 ， 必 然 引 入 人 的 监督 、 互 
动 和 参与 来 进行 核查 。 因 此 ， 为 了 达到 群体 决策 最 佳 ， 一 方面 要 提高 
智能 系统 的 置信 和 度 ， 男 一 方面 要 充分 利用 人 类 的 认 知 。 


人 类 和 机 器 的 智能 磁 拉 不仅 提高 了 个 体 的 智能 ， 同 时 提供 
了 洞悉 社会 各 种 复杂 性 的 机 会 ， 获 得 人 类 面临 问题 的 最 佳 解决 


方案 。 智 能 机 器 利用 自身 计算 速度 快 、 存 储 空间 大 、 学 习 能 力 强 的 特 
点 来 认识 规律 和 了 解 必 然 性 而 人 可 以 利用 抽象 思维 ， 总 结 、 提 炼 规 
律 ， 透 过 现象 看 本 质 ， 甚 至 可 以 通过 比特 币 和 区 块 链 技术 来 占有 资源 
和 财产 ， 从 而 建构 智能 机 器 的 独立 地 位 ， 形 成 具有 法 律 地 位 的 软件 法 
人 ， 逐 步 摆脱 物 和 资本 的 控制 。 这 不 仅仅 使 每 个 智能 机 右 和 人 得 到 全 
面 发 展 ， 也 促使 希 能 机 右 与 人 内 在 差异 的 全 面 进 步 ， 真正 构建 人 与 机 
妖 的 目 由 联合 共同 体 。 人 机 有 效 的 碰撞 互动 可 以 尽 可 能 地 维持 合作 
性 ， 促 使 闹 能 机 器 与 人 的 差异 互 补 ， 增 强 群 体 智能 。 


第 八 章 


激活 数据 学 的 应 用 场景 


数据 量 爆 发 式 地 增长 ， 数 据 维度 越 来 越 丰富 ， 这 些 都 为 人 工 智能 
的 发 展 和 应 用 提供 了 民 好 的 “土壤 "， 运 算 力 的 提升 大 幅度 推动 人 工 智 
能 的 进步 ， 深 度 学 习 算法 在 目 动 当 驶 、 城 市 大 脑 、 医 疗 影像 、 智 能 语 
音 等 方面 的 突破 性 进展 促进 了 对 人 工 智 能 的 研究 和 应 用 ， 比 如 已 经 具 
备 了 感知 层 的 基础 技术 。 同 时 ， 人 工 稚 能 的 成 果 也 反 过 来 让 数据 产生 
更 大 的 价值 ， 成 为 真正 的 “智能 数据 ”， 两 者 相辅相成 、 相 互 促进 ， 让 
各 种 数据 应 用 越 来 越 智 能 化 、 人 性 化 。 未 来 已 来 ， 我 们 正在 迈 入 “人 工 
智能 +” 时 代 。 


人 工 智能 时 代 是 一 个 更 加 开放 、 更 加 复杂 的 巨大 系统 ， 可 以 对 不 
确定 性 和 不 可 预知 性 实现 更 加 精准 的 预测 。 激 活 数据 学 以 发 现 块 数据 
内 海量 复杂 数据 的 潜在 关联 和 预测 未 来 为 目标 ， 以 复杂 理论 的 系统 思 
想 为 主要 范式 ， 探 索 其 理论 基础 和 运行 规律 ， 并 且 尝 试用 量化 手段 进 
行 模型 构建 。 激 活 数 据 学 的 基础 是 人 工 智能 的 飞速 发 展 ， 人 机 交互 扒 
动 高 度数 据 化 的 智能 与 高 度 智能 化 的 数据 相互 融合 ， 对 高 度 关联 的 数 
据 进 行 碰撞 与 激活 ， 进 而 实现 对 不 确定 性 和 不 可 预知 性 的 精准 把 控 ， 
(时 推动 人 工 智 能 的 快速 持续 发 展 。 


1. 大 数据 战略 重点 实验 室 . 块 数据 2.0: 大 数据 时 代 的 范式 革命 [IM|] .北京 : 中 信 出 版 
社 ，2016: 114-128. 


第 一 节 
激活 数据 学 下 的 自动 驾驶 


(一 ) 智能 区 驶 引领 新 一 轮 工 业 音 命 


伴随 着 新 一 代 信息 技术 的 发 展 ， 汽 车 行业 正在 朝 着 智能 化 方 癌 发 
展 ， 智 能 网 联 汽车 已 成 为 未 来 战略 的 制高点 。 搭载 移 进 的 车 载 传 感 
右 、 欣 制 硕 、 执 行 志 等 装置 ， 并 融合 现代 通信 与 网 络 技术 ， 推 动 了 汽 
车 工业 的 革命 。 与 此 同时 ， 通 过 车 与 人 、 路 、 云 痢 等 留 能 信息 交换 、 
共 诗 ， 具 备 复杂 环境 感知 、 乔 能 决策 、 协 同 控制 等 功能 的 六 能 敬 驶 技 
术 开 始 广泛 应 用 ， 使 汽车 芍 驶 变 得 更 简单 、 更 安全 。 大 数据 、 互 联 
网 、 高 精度 地 图 与 智能 雪 驶 技术 相 结合 ， 共 同 推动 了 无 人 区 驶 汽车 撤 
术 的 发 展 。 可 以 预见 ， 继 车 联网 、 新 能 源 汽车 等 优化 创新 举措 之 后 ， 
智能 敬 驶 技术 必 将 重新 规划 、 改 变现 有 的 汽车 产业 格局 ， 市 来 汽车 、 
交通 等 诸多 产业 的 重 塑 ， 成 为 第 四 次 工业 革命 的 引领 者 。 


无 人 敬 驶 智能 汽车 ， 也 可 以 称 为 “ 轮 式 移动 机 器 人 ”， 主 要 依靠 
内 以 计算 机 系统 为 主 的 稼 能 和 驾驶 仪 来 实现 目 动 驾驶 。 车 载 传 感 右 人 负 
感知 车 辆 周围 环境 ， 并 根据 感知 获得 道路 、 车 辆 位 置 和 障碍 物 信息 ， 
控制 车 辆 的 转向 和 速度 ， 因 此 车 辆 能 够 安全 、 可 靠 地 在 道路 上 行驶 。 
(加 无 人 驾驶 汽车 是 集 计算 机 技术 、 模 式 识别 、 导 航 定位 以 及 智能 控制 
等 于 一 体 的 高 新 技术 发 展 的 产物 。 尽 管 当前 在 技术 、 法 律 、 伦 理 上 还 
存在 诸多 问题 ， 但 相信 随 着 人 类 科技 进步 的 突飞猛进 ， 以 及 社会 文明 
的 高 度 发 展 ， 这 些 问 题 都 会 在 不 久 的 将 来 迎刃而解 ， 汽 车 雪 驶 员 将 真 
正解 放手 脚 ， 安 孚 雪 乘 乐趣 。 
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从 技术 的 层面 来 看 ， 无 人 要 驶 汽车 的 目 动 当 驶 系统 主要 包括 环境 
感知 、 定 位 导航 和 智能 控制 二 大 系统 。 


环境 感知 。 要 实现 真正 的 无 人 驾驶 ， 感 知 技术 的 突破 是 关键 。 
与 人 类 的 眼睛 和 和 耳 示 等 感知 右 官 相 类 似 ， 无 人 营 驶 汽车 可 以 利用 多 种 
传 感 莫 实现 对 汽车 信息 与 周围 环境 信息 进行 获取 。 无 人 营 驶 汽车 中 主 
要 应 用 的 传 感 大 包括 如 下 几 种 。 第 一 ， 摄 像 机 ， 它 是 无 人 区 驶 汽车 中 
的 视觉 传 感 硕 ， 负 责 对 地 面 标识 、 标 线 、 行 人 、 其 他 车 辆 、 红 绿灯 和 
车 灯 信 息 等 进行 获取 。 第 二 ， 声 音 传 感 奏 ， 无 人 芍 驶 汽车 中 应 用 的 声 
首 传 感 硕 主要 负责 对 其 他 车 辆 吗 备 与 所 需 关 注 声 首 做 出 检测 。 第 三 ， 
车 辆 状态 传感器 ， 主 要 应 用 的 是 GPS 和 北斗 导航 系统 等 ， 提 供 车 辆 位 
置 与 行驶 速度 等 方面 的 有 效 信息 。 第 四 ， 雷 达 ， 通 过 发 出 诸如 油光 束 
等 探测 信号 对 周围 环境 做 出 有 效 的 感知 ， 进 而 对 静止 或 运动 的 物体 进 
行 相应 的 检测 。 环 境 感知 系统 相当 于 驾驶 员 的 眼睛 和 和 卫 朱 ， 是 用 摄像 
头 、 超 声波 传 感 融 、 雷 达 等 一 系列 部 件 组 成 的 感知 模块 ， 去 感知 周围 
环境 。 


定位 导航 。 无 人 驾驶 汽车 中 应 用 的 定位 导航 系统 相当 于 驾驶 员 
的 地 图 ， 主 要 负责 对 自身 所 处 地 理 位 置 进行 确定 ， 是 无 人 敬 驶 汽车 实 
现 路 径 规划 与 任务 规划 最 为 重要 的 支撑 。 导 航 定位 技术 主要 有 自主 导 
航 技术 与 网 络 导航 技术 两 类 。 自 主导 航 技 术 主 要 是 指 没 有 定位 辅助 功 
能 ， 无 须 外 界 提 供 协 助 便 可 实现 导航 。 自 主导 航 技术 是 在 本 地 存储 相 
应 的 地 理 空间 信息 ， 全 部 计算 过 程 均 在 终端 完成 ， 在 所 有 情况 中 都 能 
有 效 地 进行 定位 。( 污 但 这 一 技术 存在 的 显著 头 端 是 设备 计算 资源 相对 
较 少 ， 致 使 其 计算 能 力 不 足 ， 可 能 出 现 定位 不 准 或 者 是 导航 不 及 时 等 
问题 。 网 络 导航 技术 能 够 随时 利用 无 线 网 络 与 交通 信息 中 心 开 展 信 息 
交互 ， 移 动 设 备 利 用 移动 网 络 实现 和 连接 有 互联 网 的 WebGIS (网 络 地 
理 信 息 系统 ) 服务 器 进行 信息 交互 ， 利 用 服务 器 对 地 图 存储 与 复杂 计 
算 进 行 功能 执行 ， 使 用 者 能 够 从 服务 需 进 行 地 图 数据 方面 的 下 载 ， 网 


络 导航 技术 具有 存储 容量 无 限制 与 计算 能 力 强 等 优势 ， 并 且 地 图 数据 
能 够 持续 进行 更 新 。 


智能 控制 。 智 能 控制 系统 相当 于 驾驶 员 的 大 脑 和 手脚 ， 分 析 和 
处 理 收 集 来 的 信息 ， 并 发 出 指令 控制 速度 和 方 同 ， 正 如 驾驶 员 驾 驶 车 
辆 一 样 ， 找 到 当前 道路 环境 下 的 预 瞄 点 ， 并 加 以 控制 。 目 前 正在 试验 
阶段 的 百度 无 人 驾驶 汽车 就 是 一 人 台 移 动 的 电脑 ， 拥 有 看 、 听 、 说 、 思 
考 、 决 策 、 行 动 等 能 力 ， 而 这 些 能 力 都 是 百度 多 年 积 素 下 来 的 能 
比如 百度 的 语音 识别 、 图 像 识别 、 机 需 学 习 等 技术 优势 ， 全 都 为 无 人 
车 提供 了 重要 文 返 。 因 为 车 辆 本 吴 具 备 综 合 规划 系统 ， 所 以 适当 地 和 采 
取 合 理 的 防御 性 区 驶 策略 ， 并 将 经 验 相 对 丰富 的 区 驶 人 员 作 为 最 重要 
的 学 习 对 象 ， 通 过 已 经 确定 的 信息 不 断 修正 不 确定 的 信息 ， 确 你 无 人 
节 怠 汽车 的 智能 决策 和 控制 相对 可 靠 、 安 人 全。 依照 实 际 的 道路 状况 分 
析 ， 也 可 及 时 地 做 出 道路 限 速 规 划 ， 由 此 提高 行驶 效率 。 另 外 ， 无 人 
当 驶 汽车 还 需要 车 联网 等 系统 的 文 持 ， 以 确保 高 效 、 安 全 运行 。 


(二 ) 激活 数据 学 在 无 人 要 驶 中 的 应 用 场景 


Apollo (阿波 罗 ) 是 一 个 开放 的 、 完 整 的 、 安 全 的 平台 ， 其 技术 
核心 是 “百度 汽车 大 脑 *"， 具 有 噩 精度 地 图 、 定 位 、 感 知 、 短 能 决策 与 
控制 四 大 功能 模块 。 它 将 帮助 汽车 行业 及 目 动 驾驶 领域 的 合作 伙伴 结 
合 车 辆 和 硬件 系统 ， 快 速 搭建 一 套 属 于 目 己 的 目 动 当 驶 系统 ， 提 供 包 
括 “ 车 辆 平台 、 硬 件 平 台 、 软 件 和 平台、 云端 数据 服务 ”等 在 内 的 完整 软 
硬件 和 服务 体系 ， 百 度 还 将 开放 环境 感知 、 路 径 规 划 、 车 辆 控制 、 车 
载 操 作 系统 等 功能 的 代码 或 能 力 ， 并 且 提 供 完 整 的 开发 测试 工具 。 


目前 ， 随 痢 无 人 雪 驶 汽车 技术 不 断 进步 ， 复 杂 情 况 技 术 处 理 等 问 
题 成 为 制约 其 进一步 发 展 的 瓶 肛 。 从 激活 数据 学 理论 看 ， 无 人 区 驶 汽 
车 系统 本 质 上 吏 是 一 个 复杂 的 块 数据 系统 ， 包 括 给 定 规则 ， 通 过 数据 


搜索 、 关 联 分 析 、 目 激活 、 热 点 减 量 化 、 乔 能 碰撞 等 环 市 提前 填 入 规 
则 ， 根 据 给 定 的 规律 变化 状态 来 解决 问题 ， 相 当 于 具备 人 类 一 定 的 联 
想 和 演绎 能 力 。 另 一 方面 ， 基 于 激活 数据 学 的 复杂 系统 包括 更 多 的 目 
吴 系 统 和 周边 系统 ， 能 通过 各 种 智能 设备 界定 安全 区 间 、 辨 别 环境 、 
规划 路 线 、 目 主 决 策 等 反应 ， 让 无 人 要 驶 汽车 技术 更 加 安全 ， 实 现 对 
不 确定 性 和 不 可 预知 性 的 精准 把 控 。 


数据 搜索 ， 精 准 预 控 。 感 知 是 自动 驾驶 工业 当前 的 创新 重点 ， 
无 人 驾驶 汽车 的 感知 模块 将 多 个 传 感 右 组 合 在 一 起 ， 通 过 人 人 工 闹 能 技 
术 ， 每 一 辆 车 都 能 看 清 、 看 慌 路 况 ， 看 到 每 一 个 行人 、 每 一 个 车 辆 、 
每 一 个 障碍 物 。 从 激活 数据 学 理论 看 ， 在 数据 搜索 阶段 ， 主 要 是 提高 
感知 系统 的 性 能 ， 以 及 提高 对 不 确定 性 情况 或 因素 的 状 能 感知 ， 通 过 
智能 搜索 感知 环境 ， 获 取 到 关联 的 数据 ， 并 在 分 析 前 期 关联 的 基础 
上 ， 预 见 性 地 进行 目 主 搜索 ， 为 更 精准 的 预 判 搜集 全 面 的 数据 资源 来 
实现 车 道 保 持 所 需 的 高 精度 定位 ， 进 而 能 实现 多 类 障碍 物 目标 检测 。 


关联 融合 ， 安 全 把 控 。 在 数据 搜索 阶段 获得 物体 信息 后 ， 再 经 
过 预测 模块 的 计算 ， 将 生成 预测 轨迹 传递 给 决策 规划 控制 系统 中 的 行 
为 决策 模块 。 关 联 融 合 是 激活 数据 学 所 讲 的 预 处 理 阶 段 。 其 目的 不 是 
将 所 有 数据 集中 在 一 起 ， 而 是 以 产生 多 元 价值 为 目标 将 多 种 数据 源 中 
的 相关 数据 提取 、 融 合 、 梳 理 、 整 合成 一 个 分 析 数 据 集 。 这 个 融合 结 
果 是 个 独立 和 灵活 的 实体 ， 可 随 数据 源 的 变化 重组 、 调 整 和 更 新。 激 
活 数 据 学 中 的 关联 融合 更 强调 系统 和 人 全面， 根据 深层 、 微 观 的 数据 天 
联 融合 ， 反 馈 作 用 于 数据 搜索 ， 进 行 相关 数据 资源 的 汇集 整合 ， 为 激 
活 数 据 学 中 的 目 激 活 提 供 了 不 断 优化 的 、 动 态 的 数据 资源 基础 ， 使 用 
大 数据 技术 以 及 最 安全 的 芍 驶 策略 ， 可 以 精准 控制 每 一 辆 车 ， 适 合 各 
种 不 同 的 路 况 。 


自 激活 ， 实 时 掌控 。 目 前 的 智能 汽车 已 经 具备 领先 的 高 精 地 图 
与 传感器 的 能 力 融合 ， 能 够 为 每 一 辆 车 提供 低 成 本 、 全 天 候 的 精准 定 


位 。 同 时 ， 利 用 深度 神经 网 络 目 主 学 习 的 特性 ， 通 过 高 性 能 将 庞大 复 
杂 的 神经 网 络 模型 训练 好 ， 然 后 移植 到 骨 入 式 开发 平台 ， 从 而 对 图 像 
视频 信息 进行 了 实时 高 效 的 处 理 。 改 进 的 深度 学 习 算 法 通过 对 多 摄像 
头 信息 融合 处 理 ， 模 拟人 的 双眼 生成 立体 空间 图 像 ， 从 而 轻松 判断 距 
离 ， 实 现 更 好 的 目 动 控制 功能 。 接 下 来 ， 基 于 激活 数据 学 中 的 数据 单 
元 实现 目 激 活 的 过 程 ， 将 极 大 地 提高 学 习 效 率 和 预测 能 力 ， 类 似 于 人 
类 神经 系统 中 神经 元 的 活动 情形 ， 让 经 验 变 得 更 可 靠 ， 让 判断 更 准 
确 ， 让 一 切 都 在 实时 掌握 之 中 。 


热点 减 量化 ， 效 用 管控 。 因 为 车 辆 本 身 具备 综合 规划 系统 的 特 
性 ， 所 以 适当 地 采取 合理 的 防御 性 释 驶 策略 ， 运 用 经 验 相对 丰富 的 萄 
驶 人 员 作为 最 重要 的 学 习 对 象 ， 才 能 确 剑 无 人 驾驶 汽车 的 智能 决策 和 
控制 相对 可 徘 、 安 全 。 在 激活 数据 学 的 热点 减 量 化 阶段 ， 通 过 降低 数 
据 噪 声 ， 排 除 不 准确 、 失 去 时 歼 性 、 关 联 度 不 高 的 策略 ， 保 证 最 终 数 
据 处 理 的 分 析 结 果 更 加 准确 。 采 取 减 量化 的 数据 分 析 路 径 ， 还 能 在 有 
限 成 本 约束 的 条 件 下 实现 数据 价值 挖掘 的 最 大 化 ， 依 照 实际 的 道路 状 
况 分 析 ， 也 可 及 时 地 做 出 道路 限 速 规划 ， 由 此 提高 行驶 效率 。 决 策 规 
划 模 块根 据 实时 路 况 、 感 知 模块 输出 、 道 路 限 速 等 信息 做 出 相应 的 轨 
迹 预 训 和 智能 规划 ， 将 同时 兼顾 安全 性 和 入 适 性 ， 进 一 步 提 高 行驶 效 


智能 碰撞 ， 系 统 联 控 。 通 过 百度 的 DuerOs (对 话 式 人 工 智 能 系 
统 ) 平台 ， 分 析 一 些 联网 的 汽车 ， 可 以 更 好 地 实现 全 语音 交互 智能 ， 
目的 就 是 为 更 多 的 用 户 提 供 最 实际 的 帮助 ， 满 足 生活 需求 ， 比 如 地 图 
的 导航 功能 、 智 能 问答 及 个 性 化 的 音频 内 容 等 ， 都 可 以 凭借 开放 平台 
的 优势 ， 提 高 车 场景 的 多 维度 能 力 。 这 也 正 是 激活 数据 学 中 智能 碰撞 
所 强调 的 “唤醒 万 物 ” 的 理论 基础 。 感 知 模块 所 输出 的 物体 信息 包括 位 
置 、 速 度 、 朝 向 以 及 物体 分 类 (如 汽车 、 行 人 、 自 行车 ) 等 物理 属 
性 ， 加 上 麦克 风 陈 列 、 回 声 消除 、 语 音 唤醒 、 远 场 识 别 等 智能 技术 ， 
并 将 这 些 植 入 家 庭 场景 、 移 动 场景 、 车 载 场 景 三 位 一 体 的 智能 碰撞 系 


统 中 ， 输 出 的 各 类 主体 参与 智能 碰撞 ， 同 时 结合 物体 和 周边 环境 信 
思 ， 以 及 积 素 的 历史 数据 知识 和 智 芝 数据， 实现 对 感知 到 的 物体 做 出 
更 为 宏观 、 精 准 的 行为 预测 。 


(三 ) 激活 数据 学 为 智能 要 驶 提供 理论 依据 


汽车 轨迹 规划 及 智能 决 党 是 实现 汽车 智能 化 的 关键 技术 之 一 ， 激 
活 数据 学 下 的 智能 芍 驶 路 径 选 择 是 以 激活 数据 学 为 理念 文 返 和 技术 文 
撑 的 ， 促 进 智 能 雪 台 有 效 解决 扫 迹 选择 、 精 准 定位 、 智 能 控制 等 的 相 
天 问题 ， 智 能 化 连接 车 与 车 、 人 与 人 、 人 与 社会 ， 真 正 实 现 汽车 能 和 
人 一 样 会 思考 、 判 晰 、 行 走 ， 探 索 出 符合 智能 芍 驶 需求 的 新 路 径 。 


激活 数据 学 构建 的 人 机 交互 模式 。 交 互 方式 主要 是 指 用 户 、 
产品 和 环境 之 间 的 信息 交流 的 形式 ， 经 历 了 从 原始 式 交 互 、 适 应 式 交 
互 到 符合 人 们 认 知 习惯 的 自然 式 交 互 的 过 程 。 人 四 目前 人 机 交互 的 主要 
方式 是 人 下 达 命 令 ， 由 机 器 去 执行 ， 在 这 个 过 程 中 ， 人 的 命令 不 能 
失误 ， 否 则 束 无 法 实现 正确 的 操作 ， 这 会 导致 安全 隐患 和 粳 料 体验 。 
例如 ， 强 光 强 照 、 积 雪 筋 作 等 巡 劣 行驶 环境 会 对 环境 感知 系统 市 来 影 
啊 ， 因 为 智能 汽车 在 一 些 物 体 识别 (水 洼 和 深 坑 ) 、 感 知 复杂 的 人 类 
手势 信号 等 方面 与 人 类 仍 有 差距 。 语 音 交 互 在 实际 的 运用 过 程 中 其 实 
并 不 是 很 成 熟 ， 手 势 交 互 现 阶段 只 能 完成 一 些 简 单 的 交互 。 因 此 ， 传 
统 汽 车 同 无 人 驾驶 汽车 的 过 渡 仍 然 还 有 很 长 的 路 要 走 。 


激活 数据 学 以 发 现 块 数据 内 海量 复杂 数据 的 潜在 关联 和 预测 未 来 
为 目标 ， 以 复杂 理论 的 系统 思想 为 主要 范式 。( 电 在 基于 激活 数据 学 的 
应 用 场景 下 ， 未 来 目 然 的 人 机 交互 应 是 以 情景 识别 为 主 ， 即 智能 机 天 
通过 环境 来 预知 人 的 需求 。 未 来 汽车 的 人 机 交互 系统 拥有 更 安全 、 更 
稳定 的 技术 ， 满 足 更 智能 、 更 人 性 化 的 需求 ， 都 古 以 集合 汽车 、 人 工 


智能 、 心 理学 等 不 同 领域 的 知识 来 完成 这 一 复杂 系统 的 。 此 外 ， 宾 活 
数据 学 的 算法 模型 可 通过 深度 学 习 的 视觉 算法 提升 感知 能 力 ， 相 比 传 
统 的 视觉 算法 ， 它 能 从 不 同 距离 、 不 同 角度 进行 识别 ， 既 可 以 识别 奇 
形 怪 状 的 车 辆 ， 也 可 以 识别 被 直接 的 车 辆 。 


激活 数据 学 连接 的 全 方位 车 联网 。 无 人 驾驶 汽车 的 技术 原理 
主要 是 通过 车 载 传 感 硕 来 感知 车 辆 周围 环境 ， 并 根据 感知 所 获得 的 道 
路 、 车 辆 位 置 和 障碍 物 等 一 系列 信息 ， 控 制 车 辆 的 转向 和 速度 ， 因 此 
涉及 多 种 最 新 的 电子 和 机 械 技术 ， 包 括 目 动 控 制 、 人 工 智能 、 视 觉 计 
算 等 。 随 着 计算 机 科学 技术 、 无 线 通信 技术 以 及 交通 运输 业 的 高 速 发 
展 ， 车 辆 导航 系统 的 动态 路 径 规划 人 研究 趋势 还 将 回 多 导航 絮 相 互 协 调 
规划 的 方 辐 发 展 。 现 在 的 车 辆 导航 部 是 以 单个 车 辆 为 对 象 进行 路 径 引 
导 ， 没 有 考虑 到 总 体 的 大 局 协调 ， 这 样 容易 引起 新 的 交通 拥堵 等 问 
题 ， 所 以 多 导航 做 协调 规划 将 是 一 种 更 加 符合 实际 需求 的 规划 方法 。 


基于 激活 数据 学 应 用 下 的 智能 系统 是 一 个 全 方位 的 车 联网 系统 ， 
实现 车 内 、 车 与 车 、 车 与 路 、 车 与 人 、 和 车 与 服务 平台 的 全 方位 网 络 连 
接 ， 有 助 于 实现 智能 交通 ， 从 根本 解决 交通 安全 难题 。 首 和 多， 一 旦 区 
驶 员 出 现 超速 、 疲 丈 雪 驶 、 不 按 规定 线路 行驶 等 违章 行为 ， 车 载 终端 
将 目 动 报警 警示 要 驶 员 。 其 次 ， 缓 解 交 通 拥堵 。 在 智能 交通 体系 内 行 
驶 ， 可 提高 城市 道路 的 通行 能 力 ， 诚 轻 交 通 拥挤 ， 减 少 停车 次 数 和 行 
车 时 间 。 因 此 ， 使 用 智能 系统 可 以 提升 汽车 和 谷 能 化 水 平和 目 动 区 驶 能 
力 ， 构 建 汽车 和 交通 服务 新 业态 ， 提 高 交通 效率 ， 改 善 汽 车 敬 乘 感 
受 ， 为 用 户 提 供 智 能 、 和 舒适 、 安 人 全、 万能 、 高 效 的 绿 合 服务 。 


激活 数据 学 实现 的 精准 预测 反馈 。 智 能 汽车 根据 传感器 输入 
的 各 种 参数 生成 期 望 的 路 径 ， 并 将 相应 的 控制 量 提供 给 后 续 的 控制 
器 。 所 以 决策 规划 是 一 项 重要 的 研究 内 容 ， 决 定 了 和 车辆 在 行驶 过 程 中 
车 辆 能 否 顺 畅 、 准 确 地 完成 各 种 区 驶 行为 。 决 策 规划 十 目 动 营 驶 的 天 
键 部 分 之 一 ， 决 策 规划 按照 划分 的 层面 不 同 可 分 为 全 局 规划 和 局 部 规 


划 。 全 局 规划 是 由 获取 到 的 地 图 信息 ， 规 划 出 一 条 在 一 些 特 定 条 件 下 
的 无 磁 撞 最 优 路 径 。 局 部 规划 则 是 根据 全 局 规划 ， 在 一 些 局 部 环境 信 
恩 基 础 上 上， 避免 撞 上 未 知 的 障碍 物 ， 节 终 到 达 目 标点 的 过 程 。 基 于 有 定 
位 信息 、 感 知 模块 提供 的 障碍 物 信 息 、 对 障碍 物 运 动 的 预测 ， 并 根据 
当前 车 辆 的 状态 同时 考虑 安全 与 舒适 度 ， 计 算 车 辆 运行 的 路 径 。 


基于 块 数 据 理 论 模 型 下 ， 激 活 数据 学 是 动态 的 ， 它 处 于 不 断 发 展 
进化 之 中 ， 而 且 对 未 来 的 变化 具有 预测 能 力 ， 并 迎合 未 来 的 变化 。 首 
先 ， 将 多 个 传 感 郁 的 输出 数据 统一 在 车 辆 坐标 系 下 ， 建 立 具有 时 间 标 
记 的 数据 融合 和 关联 分 析 ， 以 保证 场景 数据 信息 的 连贯 性 和 适用 性 。 
其 次 ， 在 接收 到 稼 能 传 感 右 感知 融合 信息 后 ， 知 能 算法 开始 学 习 外 界 
场景 信息 ， 从 全 局 的 角度 规划 具体 行驶 任务 ， 实 现状 能 车 辆 拟人 化 控 
制 融 入 整个 交通 流 。 最 后 ， 根 据 局 部 环境 信息 、 上 层 决策 任务 和 和 车身 
实时 位 置 数 据 信息 ， 在 满足 一 定 的 运动 学 约束 下 ， 为 提升 智能 汽车 安 
全 、 局 效 和 舒 适 性 能 ， 规 划 决 断 出 局 部 空间 和 时 间 内 容 ， 也 束 是 车 辆 
期 衣 最 优 的 运动 轨迹 ， 包 括 行驶 轨迹 、 速 度 、 方 同 、 状 态 等 决策 反 
局 ， 进 而 实现 对 不 确定 性 和 不 可 预知 性 的 精准 把 控 。 
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第 二 节 
激活 数据 学 下 的 城市 大 脑 


(一 ) 城市 大 脑 : 城市 的 数据 智能 中 枢 


城市 是 人 类 的 伟大 创造 ， 但 由 于 人 口 、 工 业 、 区 通 运输 过 度 集中 
而 造成 的 城市 病 正 四 处 蔓延 。 在 《智慧 地 球 : 下 一 代 的 领导 议程 》 
中 ,“ 智 慧 地 球 ” 的 理念 被 明确 地 提出 来 ， 其 目标 是 让 社会 更 智 营 地 发 
展 ， 让 人 类 更 智慧 地 生存 ， 让 地 球 更 智慧 地 运转 。 在 此 基础 上 ， 智 营 
城市 这 一 概念 孕育 而 生 ， 成 为 中 国 城市 建设 的 目标 并 得 到 大 力 推进 。 
在 智慧 城市 的 发 展 上 ， 依 托 云 计算 、 大 数据 、 移 动 互联 网 、 电 商 乎 全 
方面 的 先进 技术 ， 建 立 横 同 平台 ， 把 纵向 交通 、 医 疗 政务 等 数据 整合 
到 一 个 平台 上 ， 开 展 更 深层 次 的 痪 茵 城市 运 膏 洞察 。 乔 慧 城 市 的 建设 
需求 在 不 断 纵 货 智 能 化 、 信 息 化 技术 的 升级 时 新 。 


城市 是 数 据 密 集 型 场景 ， 束 个 城市 拥有 庞大 的 驱 体 ， 但 还 缺乏 统 
一 指挥 的 大 脑 。 知 茵 城 市 只 做 了 城市 的 手 和 脚 ， 所 有 的 决策 还 十 依 赖 
人 ， 缺 乏 目 主 控制 。 城 市 大 脑 要 做 的 是 给 城市 配置 一 个 高 智商 、 能 决 
策 的 智能 中 枢 ， 去 提升 手脚 和 髓 体 的 效率 。 城 市 大 脑 和 智 营 城 市 的 边 
界 ， 吏 在 于 对 数据 的 运用 。 和 智慧 城市 的 基础 在 于 利用 监控 摄像 关 ， 和 是 
用 硬件 基础 设施 来 搜集 数据 的 ， 而 城市 大 脑 则 是 利用 数据 创造 新 价 
值 。 


在 2016 杭 州 : 云 栖 大 会 上 上， 杭州 市 政府 公布 了 一 项 “ 头 狂 ”的 计划 : 
为 这 座 城 市 安 狠 一 个 人 工 闹 能 中 枢 一 一 杭州 城市 数据 大 脑 。 杭 州 城市 
数据 大 脑 是 这 座 城市 的 人 工 闹 能 中 枢 。 城 市 大 脑 的 内 核 采 用 阿里 云 ET 


人 工 智能 技术 ， 可 以 对 整个 城市 进行 全 局 实时 分 析 ， 目 动 调配 公共 次 
源 ， 修 正 城市 运行 中 的 bug (故障 ) ， 最 终 进 化 成 为 能 够 治理 城市 的 超 
级 人 工 智能 。 


国内 城市 使 用 的 SCATS 信 和 号 灯 控 制 系统 是 由 国外 引进 ， 并 不 适合 
中 国 的 “混合 型 "交通 现状 。 尤 其 古 当 城市 建设 导致 线圈 采集 设备 大 面 
积 损坏 时 ， 这 相当 于 SCATS 系 统 的 “ 服 睛 ”被 壹 蔽 了 ， 控 制 信号 灯 的 效 
果 比 理论 预期 过 很 多 ， 且 无 法 实现 基于 全 局 的 决策 判断 。 城 市 大 脑 引 
入 了 地 图 数据 、 摄 像 头 数据 等 ， 相 当 于 城市 大 脑 具备 了 “天 有 眼 ”"， 能 够 
从 城市 上 至 俯 隔 全 局 。 同 时 ， 城 市 大 脑 采 用 了 阿里 云 目 主 研发 的 网 络 
流 控制 理论 ， 可 以 实现 对 网 络 阻塞 点 的 全 面 量 化 。 


数据 与 智能 将 成 为 未 来 的 趋势 。 对 于 城市 而 言 ， 城 市 大 脑 可 以 将 
散落 在 各 个 角落 的 数据 汇聚 到 一 起 ， 使 用 云 计算 大 数据 和 人 工 智能 技 
术 ， 让 城市 的 各 个 器官” 协同 工作 ， 变 成 一 个 能 够 自我 调节 、 与 人 类 
良性 互动 的 有 机 体 。 人 尘 


(二 ) 激活 数据 学 优化 城市 大 脑 的 系统 应 用 


当下 城市 的 目 我 思考 能 力 有 所 欠缺 ， 资 源 价值 没有 被 完全 释放 出 
来 ， 很 多 都 沉睡 在 数据 中 心 的 硬盘 上 ， 成 为 库存 、 成 本 。 只 有 释放 出 
来 ， 流 动 的 数据 才 会 产生 价值 。 一 个 城市 的 智 辣 程度， 取决 于 这 个 城 
市 大 脑 的 中 枢 神 经 上 的 信息 流通 ， 如 今 的 传 感 絮 网 络 ，5G 时 代 的 到 来 
都 能 够 很 好 承载 信息 流通 。 数 据 的 融会 贯通 取决 于 在 线 计 算 的 能 
所 以 要 远 择 城市 的 场景 ， 利 用 城市 大 脑 来 梳理 智慧 城市 。 


实现 城市 大 脑 ， 要 解决 几 个 层面 的 问题 。 首先 ， 是 数据 集中 的 问 
题 。 要 做 到 数据 集中 ， 各 个 系统 要 有 相对 应 的 数据 ， 如 公交 有 公交 系 
统 的 数据 ， 公 安 有 公安 系统 的 数据 ， 而 城市 大 脑 第 一 步 要 做 的 是 把 所 


有 的 数据 堆放 在 一 起 。 其 次 ， 是 建 模 的 问题 。 有 了 数据 ， 还 需要 把 这 
些 数 据 建 模 ， 有 了 模型 ， 后 续 数 据 处 理 才 能 得 到 有 效 解 决 。 最 后 ， 是 
数据 优化 和 机 器 学 习 的 问题 。 通 过 数据 化 和 机 器 学 习 ， 成 为 交通 指挥 
害 。 城 市 大 脑 由 五 大 系统 组 成 一 一 超大 规模 计算 平台 、 数 据 采 集 系 
统 、 数 据 交换 中 心 、 开 放 算 法 平台 、 数 据 应 用 平台 。 基 于 激活 数据 学 
下 的 城市 大 脑 系统 能 够 有 效 解决 以 上 几 个 问题 。 


优化 超大 规模 计算 平台 。 城 市 大 脑 涉 及 的 数据 量 巨大 ， 如 此 庞 
大 的 数据 量 面 临 的 挑战 也 随 之 增加 。 激 活 数据 学 下 的 超大 规模 计算 平 
台 古 其 他 几 个 系统 的 运行 载体 ， 并 处 于 同一 个 内 部 循环 的 状态 。 结 合 
激活 数据 学 ， 超 大 规模 计算 平台 首先 将 主动 搜索 城市 各 个 系统 的 数据 
并 不 断 进行 深度 学 习 ， 人 然后 探索 城市 各 系统 之 间 数 据 的 关联 性 ， 进 行 
关联 性 分 析 。 再 通过 多 智能 体 扩 术 对 城市 数据 系统 中 出 现 的 复杂 性 问 
题 进行 建 模 ， 目 主 的 深化 学 习 并 模拟 人 类 做 决策 ， 从 而 往 先 出 对 于 城 
市 问题 解决 最 有 价值 的 数据 。 让 人 与 机 器 的 群体 智能 共同 协作 以 保证 
大 脑 能 够 真正 实现 服 疾 手 快 、 当 机 立 断 。 


优化 数据 采集 系统 。 数 据 质量 是 大 数据 面临 的 一 大 挑战 。 如 何 
从 杂乱 的 数据 中 提取 准确 无 误 的 关键 信息 ， 是 数据 集聚 中 最 难 解 决 的 
问题 之 一 。 激 活 数 据 学 下 的 数据 采集 系统 狐 如 人 的 “末梢 神经 ?和 ?人 小 
脑 ”( 执 行 层 ) ， 源 源 不 断 地 向 城市 大 脑 输送 数据 。 告 别 于 传统 的 机 械 
式 搜索 ， 它 具备 融 度 的 洞察 感知 力 ， 快 速 实现 精准 匹配 。 搜 索 范 围 更 
全 面 ， 效 用 更 高 。 在 海量 的 城市 数据 中 ， 进 行 最 有 效 的 关联 分 析 ， 运 
用 最 有 价值 的 数据 。 


当 解 决 城市 拥堵 时 ， 基 于 计算 机 视觉 仿真 、 雷 达 测 速 、 智 能 图 像 
分 析 和 快速 检索 等 技术 ， 它 将 整合 道路 监测 设施 和 信息 获取 终端 ， 实 
时 动态 监测 和 收集 车 流量 、 客 流量 信息 ， 结 合 各 种 道路 监控 设施 及 区 
警 指 挥 控制 系统 数据 进行 智能 搜索 ， 并 不 断 互 补 、 修 正 ， 进 而 获得 犯 


围 更 广 、 精 度 更 高 、 可 靠 性 更 强 的 交通 信息 ， 为 决策 系统 及 时 掌握 道 
路 交通 状态 并 做 出 决策 提供 效用 最 大 化 的 数据 价值 。 


优化 数据 交换 中 心 。 随 着 城市 数据 规模 呈 爆 发 式 增长 ， 越 来 越 
多 的 数据 带 来 了 大 量 的 应 用 价值 和 商机 ， 但 是 数据 量 的 高 速 膨胀 、 数 
据 无 意义 的 元 余 、 数 据 原 有 关联 的 割裂 又 对 信息 的 充分 利用 形成 严重 
制约 ， 同 时 不 同 的 数据 可 能 关于 某 一 时 间 、 空 间 、 人 物 、 事 件 或 者 对 
象 是 相互 关联 的 ， 现 有 的 数据 组 织 和 处 理 并 未 充分 体现 这 些 关 联 性 ， 
而 这 些 关 联 性 往往 对 解决 城市 的 管理 与 服务 问题 具有 重要 价值 。 


激活 数据 学 下 的 数据 交换 中 心 ， 犹 如 入 类 整个 大 脑 的 “ 脑 核 ”( 基 
础 层 ) ， 从 交叉 需求 导向 出 发 ， 通 过 政府 数据 、 互 联网 和 社会 数据 的 
全 面 融 合 ， 提 高 数据 的 多 维 性 和 多 样 性 ， 然 后 探索 城市 各 系统 数据 之 
间 的 内 在 关联 性 。 如 在 城市 治 堵 中 ， 对 不 同 来 源 的 交通 数据 进行 数据 
精练 、 融 合 重 构 ， 从 而 对 三 元 空间 数据 进行 关联 表达 ， 让 其 在 复杂 的 
城市 交通 数据 中 ， 更 清晰 地 构建 车 辆 与 人 流 之 间 ， 车 辆 与 车 辆 之 间 ， 
车 辆 与 道路 监控 系统 之 间 的 相互 联系 ， 刻 画 整个 交通 状况 的 全 貌 ， 为 
整个 城市 交通 数据 之 间 的 深度 融合 建立 一 个 通道 。 假 如 发 现 诸如 路 网 
等 设置 不 够 合理 的 问题 ， 束 可 快速 在 规划 环 市 进行 全 面 优化 调整 ， 趋 
近 科 学 理想 化 ， 从 而 有 效 解决 传统 调研 中 无 法 掌握 足够 样本 量 、 无 法 
将 跨 界 大 数据 整合 分 析 、 无 法 量化 计算 、 无 法 呈现 和 分 析 规 划 后 的 可 


能 场景 等 问题 。 


优化 开放 算法 平台 。 城 市 数据 的 价值 激活 需要 开放 算法 平台 作 
为 重要 文 撑 。 激 活 数据 学 下 的 开放 算法 平台 号 像 是 人 大 脑 的 “皮质 
层 ” (决策 层 ) ， 在 这 个 决策 层 中 有 多 个 智能 体 ， 这 些 智 能 体能 够 通过 
学 习 来 “激活 ”个 体 知 能， 采用 深度 学 习 的 方法 模拟 人 类 做 决策 。 与 此 
同时 ， 它 会 同 生 命 体 、 活 系统 进化 ， 能 够 自生 长 、 目 成 长 、 目 修复 。 


结合 激活 数据 学 的 运行 原理 ， 开 放 算 法 平台 通过 各 种 信息 收集 途 
径 ， 如 在 城市 交通 数据 系统 中 的 车 管 数 据 、 驾 管 数 据 、 车 辆 实时 卡 口 
数据 、 道 路 状况 数据 、 道 路 拥堵 情况 数据 等 ， 利 用 多 智能 体 技 术 构建 
复杂 目 组 织 系 统 来 模拟 智能 产生 的 过 程 ， 构 建 出 算法 模型 ， 再 通过 机 
绥 学 习 反 复 优化 和 和 闪 代 ， 回 交通 管 理 者 提出 更 好 的 建议 。 


优化 数据 应 用 平台 。 在 对 数据 进行 分 析 决 策 后 还 有 一 个 重要 步 
又 殉 是 “ 油 活 ”， 主 要 是 把 “大 脑 ” 的 决策 输出 到 城市 管理 和 城市 服务 的 
各 个 场景 。 在 激活 数据 学 下 ， 城 市 大 脑 将 帮助 静态 的 城市 管理 体系 同 
动态 的 生态 系统 转型 。 在 多 层次 的 和 解 选 机 制 上 ， 平 台 会 将 有 限 的 计算 
和 存储 资源 分 配给 最 具 价 值 的 城市 数据 单元 。 在 此 基础 上 ， 依 据 激活 
数据 学 所 能 模拟 的 智能 群体 ， 在 智能 碰撞 阶段 将 最 优 结果 匹配 输送 到 
相对 应 的 各 个 场景 之 中 。 比 如 对 每 个 路 口红 绿灯 的 时 间 设 置 ， 要 优化 
出 最 佳 通行 效率 ， 对 交通 卡 口 的 监控 实施 调配 ， 保 障 有 效 运转 ， 对 公 
交 车 辆 和 线路 进行 合理 调度 ， 甚 至 对 于 道路 施工 维修 进行 民 好 规划 等 
情况 ， 平 台 会 智能 识别 需求 ， 旬 选 出 最 有 价值 的 数据 并 通过 智能 群体 
做 出 最 优 决 策 方案 输送 到 各 个 需求 系统 。 感 知 是 数字 城市 的 功能 ， 控 
制 和 智能 服务 是 智 间 的 高 级 阶段 ， 激 活 数 据 学 将 数据 的 最 大 价值 汇流 
到 城市 发 展 中 。 


(三 ) 激活 数据 学 让 城市 大 脑 更 智慧 


城市 大 脑 目前 主要 体现 在 交通 安全 领域 ， 而 随 着 城市 中 各 种 各 样 
的 数据 开始 汇聚 到 城市 大 脑 里面 ， 诸 如 生态 环境 、 工 业 生 产 、 卫 生 健 
康 、 服 务 业 等 都 会 成 为 其 中 一 部 分 ， 这 对 城市 大 脑 的 能 力 又 会 提出 更 
多 的 要 求 。 在 城市 大 脑 项 目 中 ， 数 以 百 亿 计 的 城市 交通 管理 数据 、 公 
共 服 务 数据 、 运 膏 商 数据 、 互 联网 数据 说 集中 输入 ， 这 些 数据 成 为 城 
市 大 脑 智慧 的 起 源 。 在 激活 数据 学 下 ， 这 些 数 据 将 能 发 挥 最 大 效用 提 


供 精 准 化 的 城市 服务 ， 构 建 全 域 的 城市 治理 新 模式 以 及 人 机 共 治 的 入 
能 社会 。 


构建 全 域 的 城市 治理 新 模式 。 作 为 “最 强 有 力 的 创新 加 速 器 ”， 
人 工 帝 能 技术 必 将 得 到 更 大 发 展 。 激 活 数 据 学 结合 城市 大 脑 将 会 在 城 
市 治理 的 各 个 领域 发 挥 效 用 ， 如 智 营 治 墙 、 智 慧 旅 游 、 智 六 气象 等 方 
面 。 交 通 拥堵 ， 只 十 城市 大 脑 迎战 的 第 一 个 难题 。 在 智 匡 治 墙 方面， 
城市 大 脑 结合 整个 城市 数据 ， 把 脉 整个 城市 的 交通 情况 ， 对 症 下 药 ， 
并 能 融合 多 方 系统 为 城市 的 整体 出 行情 况 进行 把 控 。 例 如 在 旅游 方 
面 ， 城 市 大 脑 可 以 将 城市 中 每 年 接 竺 的 游客 真正 变 成 < 用 户 ”， 当 族 客 
刚 踏 上 当地 城市 的 那 一 刻 ， 城 市 大 脑 便 可 以 为 其 捉 供 个 性 化 的 服务 。 
在 智慧 气象 方面 ， 城 市 大 脑 还 可 以 对 水 库 、 河 道 、 泵 闸 等 进行 大 数据 
采集 、 分 机， 结合 天 气 数 据 ， 提 前 预测 讯 情 和 城市 内 访 。 城 市 大 脑 结 
合 激活 数据 学 的 应 用 ， 让 数据 帮助 城市 来 做 思考 和 决策 ， 将 每 座 城市 
都 打造 成 一 座 能 够 目 我 调 证 、 与 人 类 民 性 互动 的 城市 。 


构建 人 机 共 治 的 智能 社会 。 社 会 数据 化 ， 数 据 社会 化 。 就 数据 
的 本 性 而 言 ， 它 对 所 有 人 都 是 平等 的 。 激 活 数 据 学 将 数据 这 种 平等 价 
值 效用 发 挥 到 最 大 ， 让 每 个 数据 都 能 创造 出 目 号 价值 并 且 还 能 有 效 利 
用 。 当 城市 大 脑 得 荔 于 这 些 价值 时 ， 城 市 大 脑 才 被 真正 赋值 。 在 激活 
数据 中 的 乔 能 碰撞 阶段 ， 人 类 与 机 器 协同 强化 涌现 出 的 群体 智能 将 超 
越 个 体 智 力 ， 从 而 高 效 地 解决 复杂 问题 。 面 对 社会 发 展 的 多 元 需求 ， 
人 与 机 顺 相 伴 相 行 共同 治理 ， 创 造 出 和 谐 生 态 的 社会 ， 这 才 是 数据 窜 
能 的 真正 价值 。 


1. ” 孙 封 荤 .阿里 云 的 “城市 数据 大 脑 *， 比 智慧 城市 高 深 多 了 [EB/OL] . (2016-10- 
13) .http:/www.sohu.com/a/116071278_114765. 


第 三 节 
激活 数据 学 下 的 医疗 影像 


(一 ) 人 工 智 能 赋 能 医疗 影像 


借助 互联 网 的 连 授 ， 近 年 来 束 医 效率 和 体验 得 到 了 极 大 提升 ,但 
医疗 的 最 大 痛 点 一 一 资源 不 均衡 的 矛盾 并 没有 得 到 根本 性 的 解决 。 医 
疗 是 一 个 数据 密集 型 、 脑 力 劳动 密集 型 、 知 识 密集 型 的 行业 ， 需 要 依 
赖 强大 的 知识 储备 和 处 理 分 析 能 力 进 行 判断 、 诊 疗 。 同 时 失误 “ 零 容 
妨 ” 使 得 医疗 领域 从 基础 层 药 物 研 发 、 检 测 ， 到 应 用 层 预防 、 诊 断 、 治 
疗 、 康 复 、 健 康 管 理 等 各 环 世 都 面临 广 格 的 质量 和 监管 要 求 。 


技术 的 发 展 大 幅 提 高 了 医疗 数据 处 理 效 率 和 洞察 深度 ， 如 IBM“ 活 
森 ” 阅 读 10.6 万 份 临床 报告 仅 需 17 秒 。 借 助 深 度 学 习 、 目 学 习 、 目 分 
析 、 目 判断 以 及 不 知 疲倦 等 优势 ， 人 工 智 能 可 将 医疗 失误 降低 
309%6~409%。 基 于 人 工 智能 的 技术 优势 和 应 用 ， 其 赋 能 医疗 行业 的 价值 
将 是 不 可 估量 的 。 医 疗 与 人 工 智能 的 结合 ， 正 在 成 为 靳 的 爆发 点 。 


上 前， 人工 智能 对 肺病 、 和 胃癌 、 甲 状 腺 癌变 、 乳 腺 癌 、 皮 肤 病 等 
多 个 病 种 的 医学 图 像 检测 效率 和 识别 精度 都 可 以 达到 甚至 超越 专业 医 
生 水 平 。 除 此 之 外 ， 人 工 智能 可 以 大 幅 提高 读 片 效率 ， 以 及 减少 人 为 
失误 。 以 肺病 为 例 ， 针 对 平均 超过 200 层 的 肺 部 CT (电子 计算 机 断层 
扫描 ) 扫描 图 片 ， 医 生 人 工 得 查 需要 20 分 钟 甚至 更 长 ， 而 人 工 智能 仅 
需 数 十 秒 


现代 医学 是 建立 在 实验 基础 上 的 循 证 医学 ， 医 生 的 诊疗 结论 必须 
建立 在 相应 的 诊断 数据 上 ， 影 像 是 重要 的 诊断 依据 ， 医 疗 行业 


80%~90% 的 数据 都 来 产 于 医学 影像 。 所 以 临床 医生 有 极 强 的 影像 需 
求 ， 他 们 需要 对 医学 影像 进行 各 种 各 样 的 定量 分 析 、 历 史 比 较 ， 从 而 
完成 一 次 诊断 。 医 疗 信息 化 正 步 入 融合 创新 阶段 ， 即 集成 和 融合 人 工 
智能 、 机 郁 人 、 虚拟 现实 /增强 现实 等 技术 打造 面 癌 可 预测 、 可 预防 以 
及 精准 医疗 的 健康 解决 方案 。 其 中 ， 人 工 智能 被 寄予 厚望 ， 有 着 广泛 
的 应 用 场景 。 作 为 三 大 治疗 手段 之 一 ， 医 学 影像 的 精准 识别 对 医生 决 
策 至 天 重要 。 瘤 证 、 心 脏 疾病 等 许多 重大 疾病 都 可 以 在 早期 通过 医学 
影像 设备 识别 出 来 。 


在 “人 工 智能 + 医疗 影像 "领域 ， 腾 讯 打 造 的 首 个 应 用 在 医学 领域 的 
人 工 帝 能 产品 一 一 腾讯 葛 影 ， 束 是 具体 体现 。“ 腾 讯 砚 影 * 案 合 了 腾讯 
公司 内 部 包括 人 工 智能 实验 宇 、 优 图 实验 宇 、 架 构 平 台 部 等 多 个 顶尖 
人 工 智能 团队 的 能 力 ， 把 图 像 识 别 、 大 数据 处 理 、 深 度 学 习 等 领先 的 
技术 与 医学 跨 寞 融合 研发 而 成 。 通 过 与 国内 十 多 家 三 甲 医院 建立 人 工 
智能 医学 联合 实验 室 , “腾讯 砚 影 "已 经 进入 大 规模 的 临床 预 试 验 ， 并 
且 显示 出 人 工 智能 对 医疗 行业 的 “ 赋 能 ”效果 一 一 通过 “腾讯 砚 影 ”， 一 
个 食管 瘤 内 镜 检 查 诊断 用 时 不 到 4 秒 ， 能 辅助 医生 大 大 提升 对 早期 食管 
辣 的 检 出 率 。 


“腾讯 疯 影 ?以 开放 平台 的 角色 ， 成 为 各 家 医院 以 及 医疗 系统 服务 
商 的 基础 文 撑 。 通 过 这 个 平台 ， 各 地 的 医院 可 以 获得 顶尖 医疗 机 构 的 
医疗 能 力 ， 苑 其 是 重大 疾病 和 疑难 杂 症 的 诊断 和 治疗 能 力 。 腾 讯 的 人 
工 智能 医疗 影像 平台 “腾讯 下 影 ”， 具 备 人 工 智 能 + 医疗 的 创新 先进 性 ， 
以 及 推动 整个 人 工 智能 + 医疗 生态 圈 发 展 的 开放 能 


(二 ) 激活 数据 学 在 医疗 影像 中 的 应 用 党 略 


全 世界 在 人 工 稼 能 医学 影像 上 还 没有 突破 瓶 贷 ， 这 在 于 从 数据 的 
获取 端 出 发 ， 我 国 的 医学 影像 还 处 于 从 传统 胶片 同 电 子 数 据 过 小 的 阶 


段 ， 大 量 的 影像 资料 还 没有 实现 电子 化 和 数据 化 。 再 加 上 数据 关头 
多 、 类 型 多 、 结 构 复 杂 、 标 准 不 统一 等 特征 ， 导 致 有 获得 真正 高 质量 
的 有 效 数 据 ， 需 要 花费 高 昂 的 成 本 ， 这 是 一 个 巨大 的 成 本 黑洞 ， 单 靠 
一 家 医院 或 企业 很 难 解 决 ， 需 要 上 升 到 行业 层面 予以 突破 。 


人 工 入 能 + 医学 影像 ， 征 将 人 工 知 能 技术 具体 应 用 在 医学 影像 的 
诊断 上 ， 在 国外 主要 分 为 两 部 分 : 一 是 图 像 识 别 ， 应 用 于 感知 环 市 ， 
其 主要 目的 是 将 影像 这 类 非 结 构 化 数据 进行 分 析 ， 获 取 一 些 有 意义 的 
信息 ;二 是 深度 学 习 ， 应 用 于 学 习 和 分 析 环 订 ， 古 人 工 状 能 应 用 的 最 
核心 环节 ， 通 过 大 量 的 影像 数据 和 诊断 数据 ， 不 断 对 神经 元 网 络 进行 
深度 学 习 训练 ， 促 使 其 掌握 “诊断 ”的 能 力 。 


医学 影像 数据 实际 上 是 报告 + 影像 。 单 单 分 析 影 像 本 号 还 不 够 ， 

更 重要 的 是 对 影像 本 号 所 对 应 的 诊断 报告 也 加 以 分 析 。 中 国 的 影像 诊 
断 报告 呈 现 出 因 医生 而 异 的 显著 特 氮 ， 这 取决 于 影像 诊断 医生 的 个 人 
习惯 、 执 业 医 院 、 教 育 背景 、 导 师 影 响 等 因素 ， 不 同 地 区 不 同 医院 的 
影像 报告 标准 不 同 。 所 以 将 人 工 智能 具体 应 用 在 医学 影像 诊 灯 上 ， 除 
了 通行 的 图 像 识别 和 深度 学 习 之 外 ， 还 有 一 个 前 提 : 如 何 将 80% 的 非 
结构 化 数据 转化 为 结构 化 数据 。 在 这 个 基础 上 ， 具 有 无 线 想象 空间 的 
医疗 数据 才 具 有 落地 的 实现 价值 。 满 足以 上 三 个 条 件 才 意 味 着 能 够 将 
人 工 知 能 具体 应 用 到 医学 影像 的 诊断 上 上。 人工 乔 能 能 否 成 功 ， 条 件 只 
有 一 个 ， 那 束 古 海量 数据 ， 没 有 海量 的 数据 束 没 有 意义 。 和 针对 这 些 问 
懒 ， 激 活 数 据 学 提供 了 解决 的 可 能 ， 结 合 激 活 数据 学 的 运行 机 理 ， 其 
具体 路 径 如 下 。 


数据 搜索 。 数 据 搜索 是 激活 数据 学 的 第 一 步 ， 对 于 影像 采集 模 
块 ， 在 庞大 的 影像 数据 中 ， 主 动 搜 索 数 据 ， 通 过 深度 学 习 ， 从 影像 数 
据 库 中 抽取 最 能 匹配 的 影像 数据 。 目 前 大 数据 技术 主要 是 对 网 页 数据 
与 日 志 数 据 进行 整理 、 交 叉 分 析 、 比 对 ， 从 而 对 数据 进行 深度 挖掘 ， 
为 用 户 提供 个 性 化 的 迭代 分 析 能 力 。 随 着 非 结 构 化 数据 的 特征 提取 


(指纹 、 图 像 、 语 音 自动 识别 、 基 因数 据 比 对 等 ) ， 以 及 半 结 构 化 数 
据 的 内 容 检 索 、 理 解 (语义 分 析 ) 等 技术 不 断 取得 进展 ， 图 像 大 数据 
挖掘 的 研究 也 日 益 深 入 。 图 像 大 数据 挖掘 的 主要 目标 是 从 中 提取 出 图 
片 的 自身 特征 ， 包 括 语义 、 质 量 、 关 联 度 、 实 体 义 项 等 。( 凡 以往 那 些 
以 结构 化 为 主 的 数据 形式 ， 不 再 能 满足 图 像 分 析 所 需 。 在 激活 数据 学 
下 ， 面 向 知识 本 身 的 数据 模型 将 逐步 建立 起 来 ， 这 些 模 型 能 够 支持 用 
户 的 任务 与 决策 ， 还 可 以 支持 数据 自动 与 其 任务 标的 、 属 性 相 结合 ， 
对 图 像 背 后 隐藏 的 需求 进行 挖 气 ， 为 与 周边 环境 信息 进行 关联 计算 打 
下 坚实 的 基础 。 


关联 融合 。 激 活 数据 学 中 的 关联 融合 是 探索 数据 的 内 在 关联 
性 ， 对 于 预 处 理 模 块 中 的 提取 影像 特征 ， 用 数据 精练 、 融 合 重 构 的 方 
法 对 特征 信息 进行 关联 表 达 ， 并 把 特征 信息 存放 在 特征 数据 库 中 ， 利 
用 影像 特征 信息 进行 匹配 查询 。 由 于 各 种 医学 成 像 设 备 的 原理 不 同 ， 
反映 的 信息 也 各 有 侧重 ， 单 纯 从 一 种 成 像 模式 所 获得 的 信息 是 不 全 面 
的 。 如 采 把 不 同 模仿 图 像 的 特征 性 信息 提取 出来， 将 各 目的 优势 集 为 
一 体 ， 融 合成 一 幅 可 视 化 程度 更 高 、 信 息 更 丰富 的 图 像 ， 将 有 利于 绿 
合 诊断 和 分 析 ， 其 最 突出 的 优点 在 于 能 够 充分 地 利用 多 种 成 像 模式 的 
互补 性 ， 取 长 补 短 ， 得 出 一 个 综合 的 、 立 体 的 结果 。 


自 激 活 。 在 自 激活 这 个 阶段 ， 结 合 激活 数据 学 的 运行 机 理 ， 应 用 
类 似 于 大 脑 神经 突 触 联结 的 结构 进行 信息 处 理 的 数学 模型 ， 具 有 目 组 
织 、 目 学 习 、 目 处 理 、 目 适应 性 和 很 强 的 非 线性 特点 。 利 用 多 智能 体 
技术 构建 复杂 目 组 织 系统 来 模拟 党 能 产生 的 过 程 ， 对 复杂 的 医学 图 像 
分 割 、 配 准 、 融 合 、 压缩 、 重 建 等 方面 的 问题 进行 建 模 ， 对 样本 数据 
集 进行 训练 和 学 习 ， 得 到 具有 相当 分 类 精度 的 分 类 模型 。 在 通过 这 个 
特定 的 模型 运算 后 ， 目 激活 系统 会 有 一 个 结 采 输出 ， 这 个 结 采 能 优化 
数据 ， 做 出 决策 ， 由 于 存在 多 个 目 激活 系统 ， 所 以 会 输出 多 个 图 像 数 
据 的 处 理 结果 ， 这 为 复杂 的 多 模 态 的 疾病 诊断 提供 了 多 维 的 解决 方 


案 。 


热点 减 量 化 。 由 于 在 自 激活 系统 出 现 了 多 种 方案 ， 所 以 需要 热 
点 减 量 。 在 热点 减 量化 阶段 ， 可 基于 多 层次 的 筛选 机 制 ， 对 影像 数据 
进行 算法 分 析 ， 最 具 价值 的 数据 单元 留 下 ， 以 发 现 数据 的 主题 、 特 
征 、 关 系 等 规律 为 精准 识别 图 像 做 准备 。 这 个 阶段 对 于 解决 医疗 图 像 
中 背景 知识 不 清楚 、 推 理 规则 不 明确 和 比较 复杂 的 分 类 问题 来 说 极为 
重要 。 通 过 热点 减 量 ， 有 价值 的 洞察 力 为 诊断 结果 提供 支持 或 否认 的 
假设 判断 ， 为 最 终 的 决策 输出 做 出 精准 的 预 判 。 


智能 碰 擅 。 在 智能 碰撞 阶段 ， 人 类 与 机 器 协同 ， 根 据 分 类 模型 
对 未 标记 的 影像 数据 集 进行 目 动 分 类 判别 ， 从 而 精准 高 效 地 判 识 问 
题 。 这 个 阶段 也 十 找 寻 最 优 解 的 过 程 ， 第 一 个 束 古 个 体 本 身 所 找到 的 
最 优 解 ， 男 一 个 极 值 是 整个 种 群 目 前 找到 的 最 优 解 ， 即 人 机 结合 所 做 
出 的 最 优 解 。 医 学 影像 上 一 共 可 以 分 为 2 000 多 个 的 病 种 ， 解 决 一 个 单 
病 种 已 经 不 是 简单 的 事情 ， 更 何况 病 种 与 病 种 之 间 的 差异 度 也 很 大 ， 
所 以 ， 人 工 闹 能 + 医学 影像 需要 顶级 医学 专家 和 顶级 机 右 学 习 学 者 通 
力 合作 才 有 可 能 成 功 。 目 前 还 没有 通用 的 方法 对 任意 医学 图 像 都 能 取 
得 绝对 理想 的 处 理 效 果 ， 传 统 经 典 的 图 像 处 理 方法 在 考虑 医学 图 像 实 
际 特点 的 基础 上 ， 寿 能 结合 激活 数据 学 理论 ， 采 用 多 种 类 型 的 方法 结 
合 与 改进 使 用 ， 相 互 弥补 算法 功能 的 缺陷 ， 这 也 将 会 是 医学 图 像 处 理 
技术 一 个 重要 的 发 展 方 同 。 


(三 ) 激活 数据 学 提升 医疗 影像 价值 


为 了 解决 时 间 有 限 性 和 诊断 准确 性 的 问题 ， 将 人 工 稚 能 引入 数字 
病理 学 研究 是 最 好 的 办 法 。 激 活 数 据 学 下 的 人 工 智能 可 以 更 大 程度 地 
缩短 病理 诊断 的 时 间 、 提 升 诊断 效率 ， 最 主要 的 是 ， 它 还 能 提供 更 加 
准确 的 诊断 结果 。 激 活 数 据 学 下 的 人 工 智能 可 以 真正 帮助 病理 医生 所 
升 判读 水 平 ， 从 精准 诊断 开始 ， 真 正 实现 精准 医疗 。 


辅助 诊断 的 广泛 运用 。 智 能 辅助 诊断 凭借 计算 机 模拟 医生 的 思 
维和 诊断 推理 ， 给 出 可 靠 的 诊断 。 人 工 智能 在 医疗 影像 方面 的 应 用 在 
对 比 精 细 化 程度 上 显然 优 于 传统 医生 肉眼 观察 分 析 。 医 疗 数据 规模 和 
数据 结构 化 能 力 是 智能 辅助 诊断 技术 竞争 的 核心 壁 例 。 结 合 激活 数据 
学 ， 在 工作 原理 上 ， 辅 助 诊断 的 第 一 步 通过 自然 语言 处 理学 习 、 理 角 
和 归纳 医疗 信息 ， 包 括 权威 医学 书籍 文献 、 诊 疗 指南 和 病历 等 海量 信 
息 ， 自 动 构建 一 个 大 规模 的 “医学 知识 图 谱 >， 关 似 机 器 大 脑 的 “医学 知 
识 库 "， 第 二 步 用 领先 的 深度 学 习 技术 去 学 习 海量 临床 诊断 案例 ， 再 对 
比 数 十 万 机 器 与 专家 的 诊断 数据 后 ， 持 续 优化 模型 ， 不 断 提升 其 诊断 
能 力 ， 得 出 基于 医学 影像 、 检 查 检验 结果 、 病 史 等 多 个 维度 的 深度 诊 
断 ， 给 出 县 体 病症 预测 。 这 为 医生 提供 了 更 好 的 决策 基础 ， 能 辅助 他 
们 更 快 、 更 有 效 地 理解 病案 ， 提 升 诊疗 效率 。 


精准 医疗 的 进一步 实现 。 精 准 医疗 是 由 基因 医学 、 转 化 医学 、 
个 性 化 医疗 演变 而 来 的 ， 基 于 系统 学 方法 ， 利 用 大 数据 分 析 ， 实 现 患 
者 驱动 的 医疗 管理 的 新 医学 模式 。( 央 作为 下 一 代 诊 疗 技术 ， 精 准 医疗 
具有 重要 的 理论 和 实践 意义 。 一 方面 ， 精 准 医疗 理论 研究 有 利于 完善 
数据 科学 学 科 体 系 ， 丰 富 和 创新 临床 及 转化 医学 研究 ， 男 一 方面 ， 基 
于 大 数据 的 精准 医疗 服务 可 以 实现 在 合适 的 时 间 给 予 患 者 以 合适 的 治 
疗 ( 因 ， 保 障 医疗 安全 ， 改 善 医院 经 营 管理 。 实 施 精 准 医疗 的 前 提 是 ， 
必须 建立 起 一 个 庞大 的 生物 信息 数据 库 ， 并 有 与 之 相配 的 健康 人 体 和 
疾病 群体 的 大 数据 分 析 、 海 量 数据 高 效 整合 、 高 通 量 信息 货源 共生 等 
文 持 ， 实 现 精准 医疗 是 一 项 非常 困难 的 系统 工程 。 在 整个 医学 影像 
中 ， 医 学 大 数据 一 定 会 影像 多 行 ， 结 合 激活 数据 学 实施 智能 搜索 。 然 
后 利用 云 计算 的 方法 增加 连接 性 ， 利 用 深度 学 习 的 方法 挖掘 大 数据 的 
价值 ， 利 用 发 现 数据 的 方法 在 更 多 的 维度 中 挖掘 原来 浅 关 联 或 弱 关 联 
的 关系 ， 利 用 三 者 的 关联 大 大 提高 医疗 诊疗 效率 ， 再 结合 激活 数据 学 
的 使 用 ， 积 素 优 质 、 大 量 的 数据 ， 高 性 能 计算 环境 ;优化 的 深度 学 习 
方法 ; 三 者 资源 配 齐 就 会 构建 不 断 提 升 的 状态 的 模型 。 在 过 去 ， 医 生 


在 解读 向 像 的 时 候 遇 到 的 一 个 难题 束 是 需要 寻找 关注 点 ， 比 如 六 有 一 
些 非 常 细微 、 非 常 不 易 人 查找 的 地 方 束 可 能 被 人 们 名 略 。 基 于 激活 数据 
学 中 的 目 我 学 习 及 深度 学 习 ， 束 可 以 找到 诊断 和 治疗 所 需要 的 信息 或 
细微 之 处 。 此 外 ， 还 会 引发 目 动 化 产品 的 出 现 ， 目 动 化 的 产品 会 极 大 
地 提高 诊断 的 效率 。 可 以 肯定 ， 激 活 数据 学 下 的 机 需 目 我 学 习 比 以 前 
只 和 插 医 生 的 肉眼 和 经 验 来 识别 一 些 更 加 细微 的 病症 更 为 准确 ， 这 些 最 
终 推动 精准 医疗 的 进步 。 
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第 四 节 
激活 数据 学 下 的 智能 语音 


(一 ) 智能 语音 交互 : 进 阶 的 交互 模式 


随 看 互联 网 的 道 劲 发 展 ， 未 来 以 听觉 、 祝 觉 、 手 势 等 融合 起 来 的 
多 通道 人 机 交互 、 以 虚拟 现实 技术 为 文 撑 的 计算 机 系统 和 以 智能 手 
机 、 智能 手 环 、 智 能 车 载 为 主导 的 小 型 智能 设备 ， 势 必 会 重新 定义 互 
联网 的 生态 系统 ， 成 为 科技 领域 中 新 的 探索 方向 。 在 越 来 越 细 分 的 领 
域 ， 语 音 交 互 作为 多 通道 人 机 交互 中 的 一 环 ， 势 必 会 成 为 不 可 抵挡 的 
未 来 发 展 趋势 。 


语音 交互 与 传统 的 人 机 区 互相 比 ， 更 专注 于 在 某 些 特殊 场合 下 ， 
胶体 或 视线 被 占用 时 ， 利 用 语音 去 完成 运作 ， 比 如 开车 时 利用 语音 对 
车 内 功能 进行 操作 。 语 首 交 互 使 人 机 界面 同时 具备 了 “ 听 ” 和 “说 ”的 能 
力 ， 在 互联 网 服务 化 的 时 代 ， 语 音 将 解放 人 们 的 双手 ， 降 低 移动 互联 
网 的 使 用 门槛 ， 让 输入 更 便捷 ， 服 务 效率 更 高 ， 从 而 成 为 移动 互联 网 
发 展 的 一 个 里 程 碑 。 


完整 的 语音 交互 过 程 分 为 三 个 步骤 : 听 清 、 昕 全、 满足 。 听 清 : 
当 用 户 的 声音 从 考区 风 输 入 时 ， 应 有 拾 音 套 记录 用 户 声音 ， 并 准确 地 
进行 识别 ， 将 最 终结 果 反 馈 给 人 工 智能 大 脑 。 在 这 个 过 程 中 ， 需 要 软 
硬件 以 及 算法 去 处 理 所 有 声 首 ， 取 其 精华 ， 弃 其 糟粕 ， 最 终 记录 真正 
的 指令 。 听 民 : 在 大 脑 拿 到 结 末 后 ， 要 对 其 进行 解析 ， 将 语 首 转 为 文 
字 ， 并 进行 语义 分 析 ， 需 要 强大 的 算法 和 机 器 学 习 能 力 不 断 去 纠 错 。 
区 分 和 判断 哪些 十 命令 词 ， 哪 些 是 内 容 词 ， 最 终 普通 的 一 句 话 要 被 拆 


分 为 命令 、 内 容 等 相关 类 型 词 。 满 足 : 当 人 工 智 能 大 脑 理解 了 一 句 丛 
单 的 话 后 ， 接 下 来 的 吏 是 满足 用 户 需 求 。 用 户 如 需要 查询 ， 便 去 告诉 
他 相应 内 容 ; 用 户 如 需要 执行 动作 ， 便 去 完成 整个 动作 流程 。 


智能 语音 交互 最 典型 的 应 用 方式 是 语音 助手 、 语 音 搜索 。 语 音 助 
手 的 最 终 目 标 束 是 让 用 户 解放 双手 ， 完 全 使 用 语音 操作 系统 。 目 前 在 
机 器 语 首 输入 和 输出 方面 有 很 多 研究， 但 是 大 多 数 研 究 部 只 是 处 理 一 
些 人 简单 的 、 固 定 的 词语 和 句子 ， 然 后 通过 计算 机 程序 编译 输出 一 些 比 
较 机 械 化 的 语言 。 对 于 人 类 复杂 的 说 话 、 语 境 语义 的 理解 研究 还 停留 
于 起 步 阶段 。 人 类 有 着 非常 复 洒 的 语言 ， 每 个 国家 每 个 地 域 的 语言 变 
化 、 词 汇 使 用 都 不 一 样 ， 即 便 是 同一 个 人 ， 其 声音 、 发 音 以 及 聊天 方 
式 都 会 随 其 个 人 状态 、 喘 处 的 环境 以 及 过 到 的 人 发 生 相 应 的 变化 。 
此 ， 要 想 让 计算 机 对 用 户 的 情绪 和 所 处 环境 更 为 了 解 ， 赋 了 予 计算 机 更 
多 的 人 类 观察 能 力 和 更 多 情绪 、 情 感 能 力 ， 人 研究 者 需 要 在 情感 化 设计 
与 智能 交互 方面 做 大 量 的 研究 与 探索 。 


从 目前 市 场 上 智能 家 电 、 智 能 硬件 等 产品 的 发 展 趋势 来 看 ， 键 盘 
输入 、 手 机 App 《安装 在 智能 手机 上 的 软件 ) 、 体 感 交 互 、 图 像 识别 
等 多 种 人 机 交互 并 存 。 但 是 随 着 大 数据 、 机 器 学 习 、 云 计算 、 人 工 智 
能 等 技术 的 发 展 ， 语 首 交 互 正 一 步 步 解 放 用 户 的 双手 ， 语 音 输 入 框 也 
大 有 取代 鼠标 、 键 型 之 势 。 伴 随 着 智能 移动 设备 的 普及 ， 语 音 交 互 作 
为 一 种 新 型 的 人 机 交互 方式 ， 已 引起 整个 IT 业界 的 重视 。 


(二 ) 智能 语音 技术 提升 的 路 径 选 择 


智能 语音 及 语言 交互 技术 ， 可 以 应 用 在 社会 生活 的 方方面面 ， 拥 
有 广阔 的 产业 化 前 景 。 在 军事 、 教 育 、 汉 语 国际 推广 等 重要 战略 领 
域 ， 都 有 广泛 应 用 和 重大 推广 意义 。 不 过 智能 语音 存在 两 大 技术 瓶 


颈 。 第 一 ， 远 场 环 境 复杂 ， 夹 杂 噪声 、 混 响 、 自 噪声 等 ， 容 易 导致 机 


吉 端 “ 听 不 清 ”， 从 而 影响 后 续 一 系列 操作 。 解 决 了 这 个 问题 ， 俩 命令 
控制 的 终端 便 能 市 来 恨 好 的 用 户 体 验 ; 第 二 ， 真 正 的 智能 需要 实现 语 
义 的 突破 、 需 要 声音 与 视觉 的 融合 ， 具 有 更 深 技 次 智能 的 拟人 形态 机 
絮 人 才 更 适合 运用 智能 语 首 技术 ;， 第 三 ， 该 项 技术 熟悉 各 种 各 样 的 语 
言 、 口 普 和 方言 ， 这 一 点 在 中 国 尤为 重要 。 技 术 的 创新 性 及 核心 研发 
实力 征 人 工 智能 企业 生存 的 关键。 智能 语音 要 想 取得 突破 ， 与 语音 合 
成 、 语 音 识 别 、 目 然 语 言 处 理 技术 、 语 音 评测 技术 、 声 纹 识别 技术 等 
关键 技术 的 发 展 密 不 可 分 。 数 据 搜 索 、 关 联 融合 、 目 激活 、 热 点 减 量 
化 、 智 能 磁 撞 是 激活 数据 学 的 5 个 运行 阶段 ， 构 成 了 激活 数据 学 模型 化 
运行 的 完整 流程 。 这 5 个 阶段 如 果 能 分 别 运用 于 智能 语音 应 用 中 ， 将 从 
整体 上 提升 整个 智能 语音 应 用 的 水 乎 。 


语音 识别 。 在 语音 识别 阶段 所 要 解决 的 问题 是 让 计算 机 能 够 “ 听 
懂 ”* 人 类 的 语 首 ， 将 语 首 中 包含 的 文字 信息 “提取 ”出 来 。 该 技术 在 “能 
听 会 说 ”的 智能 计算 机 系统 中 扮演 着 重要 角色 ， 相 当 于 给 计算 机 系统 安 
装 上 “ 耳 东 ”， 使 其 具备 “ 听 ” 的 功能 ， 进 而 实现 信息 时 代 利 用 “语音 ”这 
一 最 日 然 、 最 便捷 的 手段 进行 人 机 通信 和 交互 。 激 活 数 据 中 的 语 首 识 
别 能 够 更 主动 地 提取 语音 中 的 文字 信息 ， 并 进行 目 我 深度 学 习 ， 不 断 
纠 错 ， 丰 富 语音 维度 ， 更 快 、 更 精准 地 识别 文字 。 语 音 识别 是 一 门 交 
义学 科 ， 其 涉及 的 数据 量 也 非常 大 ， 要 实现 精准 识别 束 必 须 不 断 加 强 
学 习 能 力 ， 同 时 还 要 扩充 语言 量 。 这 样 才 能 逐步 实现 将 人 类 语音 中 的 
词汇 内 容 全 部 正确 地 转换 为 计算 机 可 读 的 输入 。 


语音 合成 。 语 音 合成 又 称 文 语 转换 技术 ， 它 涉及 声学 、 语 言 
学 、 数 字 信 号 处 理 、 计 算 机 科学 等 多 个 学 科技 术 。 语 音 合 成 技术 解决 
的 主要 问题 是 将 文字 信息 转化 为 声音 信息 ， 即 让 机 器 像 人 一 样 开口 说 
话 。 语 音 合成 技术 主要 是 根据 韵律 建 模 的 结果 ， 从 原始 语音 库 中 取出 
相应 的 语音 基 元 ， 利 用 特定 的 语音 合成 技术 对 语音 基 元 进行 韵律 特性 
的 调整 和 修改 ， 最 终 合 成 出 符合 要 求 的 语 首 。 如 果 说 数据 搜索 能 够 让 
语 首 识 别 更 加 精准 ， 那 么 激活 数据 学 中 的 关联 融合 则 是 让 不 同 语音 


间 的 深度 融合 建立 了 一 个 通道 。 在 复杂 海量 的 语音 中 ， 关 联 融 合 能 更 
清晰 地 构建 起 不 同 语音 系 别 之 间 的 相互 联系 ， 融 合成 全 新 的 语音 


| 


自然 语言 处 理 技术 。 自 然 语言 处 理 技术 所 涵盖 的 研究 内 容 非常 
广泛 ， 从 研究 成 果 的 表现 形式 来 说 ， 基 本 可 以 分 为 基础 研究 和 应 用 研 
究 两 大 类 。 在 基础 研究 中 主要 指 对 自然 语言 内 在 规律 的 研究 ， 从 研究 
深度 和 难度 上 大 致 可 以 划分 为 词典 编撰 、 分 词 断 句 、 词 性 分 析 、 语 计 
模型 、 语 法 分 析 、 语 义 分 析 、 语 用 分 析 等 。 


在 应 用 研究 中 主要 基于 基础 研究 的 成 采 ， 面 癌 不 同 的 应 用 ， 人 研发 
相关 的 目 然 语言 处 理 拉 术 ， 大 的 方 同 包括 但 不 限于 :拼音 输入 法 、 信 
思 检 索 、 信 息 抽 取 、 目 动 摘 要 、 机 需 翻 译 、 语 音 合 成 、 语 音 识 别 、 文 
本 匹配 、 文 本 分 类 、 对 话 系统 等 。 


语义 理解 是 衡量 人 机 交互 体验 度 的 一 个 重要 指标 ， 人 工 智能 的 核 
心 古 认 知 ， 认 知 的 核心 是 语义 理解 技术 。 机 器 人 只 有 在 “ 懂 ” 了 人 类 的 
指令 后 ， 才 能 正确 执行 用 户 下 达 的 指令 。 结 合 激 活 数 据 学 的 目 滞 活 阶 
段 ， 知 能 体 采用 深度 学 习 的 方法 模拟 人 类 做 决策 ， 每 个 智能 体 即 一 个 
独立 的 “大 脑 *"， 这 些 独立 而 又 积极 的 智能 体能 不 断 学 习 语 义 ，“ 激 
活 ? 个 体 智 能 ， 深 化 认 知 ， 加 强 语义 理解 ， 从 而 提升 人 机 交互 的 体验 
度 。 


声 纹 识别 技术 。 声 纹 识别 技术 是 一 种 通过 语音 信号 提取 代表 说 
话 人 身份 的 相关 特征 (如 反映 声 门 开 合 频率 的 基 频 特征 、 反 映 口腔 大 
小 形状 、 声 道 长 度 的 频谱 特征 等 ) ， 进 而 识别 出 说 话 人 身份 等 方面 的 
技术 。 它 可 以 广泛 应 用 于 信息 安全 、 电 话 银 行 、 知 能 门 葵 以 及 娱乐 增 
值 等 领域 。 语 音量 的 庞大 不 言 而 喻 ， 在 这 种 洛 瀚 的 数据 中 提取 最 有 价 
值 的 语音 信号 束 要 结合 激活 数据 学 的 热点 减 量化 这 点 ， 基 于 多 层次 的 


入 选 机 制 ， 将 有 限 的 计算 和 存储 货源 分 配给 最 具 价值 的 数据 单元 ， 这 
样 才 能 为 个 性 化 的 声 纹 识别 提供 最 好 的 保障 。 


语音 评测 技术 。 语 音 评 测 技术 又 称 计算 机 辅助 语言 学 习 ， 是 机 
亏 目 动 对 用 户 发 音 进 行 评分 、 检 错 并 给 出 矫正 指导 的 撤 术 。 语 音 评测 
技术 十 智能 语音 处 理 领域 的 研究 前 沿 ， 同 时 又 因为 能 显著 提高 受众 对 
口语 学 习 的 兴趣 、 歼 率 和 效 末 ， 而 有 着 广阔 的 应 用 前 景 。 基 于 此 ， 语 
音 评 测 技术 还 要 结合 激活 数据 学 中 的 智能 碰 扩 来 进行 处 理 。 在 智能 硕 
撞 阶 段 ， 人 类 与 机 器 协同 强化 涌现 出 的 群体 智能 将 超越 个 体 智 力 ， 从 
而 高 效 地 解决 复杂 问题 。 现 在 语音 评测 技术 在 很 多 App 中 应 用 都 非常 
广泛 ， 但 征 要 实现 精准 评测 还 需要 不 断 提 升 技术 水 平 ， 仅 仅 靠 机 融 冤 
能 是 不 行 的 ， 还 要 借助 人 类 智力 ， 二 者 在 一 定 程度 上 达到 协同 才能 呈 
现 出 最 好 的 效果 。 


(三 ) 激活 数据 学 开局 语音 交互 新 时 代 


人 工 智 能 语音 进化 史 大 致 分 为 三 个 阶段 ， 人 工 智 能 语音 1.0 运 用 是 
一 问 一 答 的 形式 ， 人 工 智能 语音 2.0 是 有 问 有 答 的 形式 ， 而 进入 人 工 窜 
能 语音 3.0， 最 大 的 进展 融 是 人 机 交互 的 发 展 。 不 仅仅 有 问 有 答 和 包含 
上 下 文 逻辑 了 ， 人 工 智能 硬件 能 够 更 多 地 融合 各 种 环境 信息 ， 做 出 不 
同 决策 或 推荐 。 也 就 说 ， 在 交互 的 过 程 中 ， 机 絮 有 了 更 多 的 主动 性 ， 
能 够 为 人 提供 更 多 、 更 好 的 帮助 ， 让 人 们 的 生活 更 便捷 、 更 安全 、 更 
有 趣 。 在 万 物 互联 痕 漳 下 ， 人 机 交互 需要 提供 更 镶 能 的 方案 来 完成 区 
互 工作 。 信 息 半 命 以 来 ， 每 一 次 世界 商业 大 淹 的 兴起 都 耳 由 人 机 交互 
方式 开端 的 ， 而 下 一 代 人 机 交互 便 是 语音 交互 。 激 活 数据 学 的 出 现 不 
仅 能 让 人 工 智能 语音 在 第 三 阶段 顺利 进化 ， 而 且 还 为 语音 交互 的 变 单 
提供 可 能 。 


近年 来 ， 云 计算 技术 已 经 发 展 成 为 大 众 化 的 服务 平台 ， 这 为 人 工 
智能 技术 的 实现 和 应 用 落地 提供 了 强大 的 后 台 保 障 。 云 计算 技术 降低 
了 资源 使 用 门槛 ， 为 数据 集中 化 创造 了 基础 ， 极 大 地 促进 了 大 数据 
产业 的 发 展 。 同 时 ， 大 数据 是 智能 的 基础 和 土壤 ， 没 有 数据 融 没 有 鹤 
能 ， 所 有 的 智能 都 是 建立 在 数据 的 基础 上 。 移 动 互 联网 及 物 联网 的 普 
及 使 得 大 数据 技术 迅猛 发 展 ， 从 而 也 助 推 了 人 工 智能 的 长 足 进步 ， 这 
征 因 为 人 工 智能 技术 使 用 统计 模型 来 进行 数据 的 概率 推算 ， 这 些 模型 
只 有 在 大 数据 海洋 中 不 断 优化 或 者 “训练 >"， 深 度 学 习 算 法 输出 的 结 
才 更 加 准确 。 


在 这 样 的 背景 下 ， 激 活 数据 学 为 语 首 交互 变革 提供 理论 和 技术 上 
的 可 能 。 智 能 语音 交互 技术 属于 多 学 科 交 叉 的 边缘 学 科 ， 涉 及 语言 
学 、 心 理学 、 工 程 学 和 计算 机 技术 等 领域 ,不 仅 要 对 语音 识别 和 语音 
合成 技术 进行 研究 ， 还 要 对 人 在 语音 通道 下 的 交互 机 理 、 行 为 方式 等 
进行 研究 ， 让 机 需 像 人 一 样 从 “能 听 会 说 ?到 “能 理解 会 思考 ”。 油 活 数 
据 学 以 超大 规模 数据 作为 研究 对 象 ， 以 超大 规模 数据 在 块 上 集聚 为 基 
础 ， 能 够 较为 系统 地 过 括 多 门 学 科 数 据 并 能 精准 识别 基于 群体 智能 的 
结构 理论 与 组 织 方 法 ， 通 过 赋 究 基 于 群体 与 环境 数据 分 析 的 主动 感 
知 ， 构 建 形 成 人 机 协同 、 交 互 驱 动 的 演进 式 群 智 决策 系统 等 ， 从 应 用 
上 为 语音 交互 的 变 音 提供 可 能 。 


以 前 古 以 机 器 为 中 心 进行 交互 ， 示 来 会 以 人 为 中 心 进行 交互 。 万 
物 互 联 浪潮 下 ， 人 根据 语音 的 控制 ， 根 据 视 觉 的 控制 ， 然 后 配合 手 的 
操作 ， 完 成 整个 交互 过 程 。“ 云 + 端 " 方 式 最 大 限度 地 利用 货源 的 组 合 优 
势 ， 形 成 应 用 能 力 的 突破 ;PC (个 人 计算 机 ) 时 代 ， 人 们 与 机 器 通过 
键盘 和 岂 标 交流 ， 与 机 器 “沟通 ”需要 学 会 打字 、 按 键 操作 ， 移 动 互联 
网 时 代 ， 人 人 们 与 智能 手机 通过 触 措 屏 才 交流 ， 只 需 清 一 滑 手指 即 可 完 
成 任务 ， 未 来 智能 时 代 ， 结 合 激 活 数 据 学 ， 机 器 将 更 像 人 类 的 一 员 ， 
与 它 之 间 的 交互 方式 将 更 趋同 于 人 与 人 之 间 的 交互 。 


第 九 章 


云 脑 时 代 : 开局 数 子 文明 新 纪元 


云 脑 时 代 是 运用 激活 数据 学 这 个 新 方法 论 扒 动人、 智能 机 右 和 云 
计算 等 融合 发 展 的 新 时 代 ， 也 古 新 技术、 新 模式 被 激 活 应 用 的 时 代 。 
新 的 科技 半 命 与 产业 变 单 测 独 而 至 ， 大 数据 、 云 计算 、 人 工 知 能 日 新 
月 异 ， 世 界 变 成 一 个 更 加 开放 、 更 加 复杂 的 巨 系统 ， 不 确定 性 和 不 可 
预知 性 使 一 切 坚固 的 事物 都 可 能 消失 得 无 影 无 踩 。 


人 脑 时 代 ， 知 识 吏 是 力量 ; 电脑 时 代 ， 信 息 就 是 能 量 ; 云 脑 时 
代 ， 数 据 就 古 变 量 。 数 据 、 计 算 和 场景 的 广汉 应用， 深刻 改变 着 人 们 
的 生产 、 生 活 方 式 ， 革 新 着 人 类 社会 的 世界 观 、 价 值 观 和 方法 论 。 尤 
其 是 海量 数据 的 迁 代 训练 应 用 ， 让 机 絮 变 得 越 来 越 希 能 ， 机 融 的 状 能 
化 极 大 地 改善 了 机 器 同人 类 沟通 协作 的 能 力 ， 人 机 合作 成 为 驱动 人 类 
解决 复杂 问题 和 创造 一 个 更 为 井然 有 序 时 代 的 中 坚 力量 。 


云 脑 时 代 ， 人 工 闹 能 作为 狐 一 轮 科 技 章 命 和 产业 变 草 的 核心 力 
量 ， 为 人 类 社会 的 经 济 发展 融 来 了 历史 性 的 变革 。 与 此 同时 ， 作 为 一 
项 不 断 发展 中 的 狐 技 术 ， 人 工 智 能 驶 像 * 脱 了 缉 的 野马 ?” 寿 意 奔腾 ， 正 
在 以 我 们 无 法 想象 的 速度 发 展 壮 大 。 如 果 人 工 智能 的 发 展 不 受 人 类 控 
制 ， 它 可 能 会 成 为 人 类 文明 的 终结 者 。 区 块 链 的 发 展 为 人 工 智能 提供 
指引 ， 并 重 塑 了 人 工 智 能 时 代 的 新 生态 。 


云 脑 时 代 ， 数 字 文 明 不 仅 是 碟 动 经 济 发 展 的 新 动能 ， 同 时 也 形成 
了 一 种 新 的 以 数 权 法 为 主流 价值 观 的 社会 秩序 。 未 来 的 互联 网 ， 将 不 
再 只 是 部 分 领域 的 互联 网 ， 而 是 全 人 类 共同 至 有 的 互联 网 ， 也 是 在 实 


现 了 人 的 全 面目 由 发 展 环境 下 的 目 由 互联 ， 推 动 全 人 类 进入 数字 命运 
的 共同 体 时 代 。 


第 一 节 
驱动 云 脑 时 代 的 “三 加 马车 > 


(一 ) 数据 驱动 


数据 作为 信息 时 代 的 新 能 源 ， 为 人 类 文明 发 展 提供 了 动 
力 。 能 源 是 人 类 生产 和 生活 的 物质 基础 ， 从 原始 文明 到 农耕 文明 ， 人 
类 依靠 人 力 、 冀 力 和 太阳 能 、 风 能 、 水 能 等 可 再 生 能 产 来 利用 目 然 和 
改变 环境 。 工 业 文 明 时 代 ， 生 物 能 源 逐 前 被 煤 、 石 油 、 天 然 气 等 化 石 
能 源 所 蔡 代 ， 化 石 能 源 的 发 现 和 大 规模 的 使 用 加 速 了 人 类 文明 的 进 
步 。 到 了 信息 文明 时 代 ， 从 商业 科技 到 医疗 、 政 府 、 教 育 、 经 济 、 人 
文 以 及 社会 的 其 他 领域 无 不 流动 着 海量 的 数据 ， 我 们 的 生活 已 经 离 不 
开 数 据 了 ， 数 据 作为 新 兴 能 源 登 上 历史 舞台 。 对 海量 数据 的 关联 分 
析 ， 能 够 更 好 地 洞悉 社会 发 展 规律 。 将 来 会 有 越 来 越 多 的 企业 以 数据 
为 底 料 进行 生产 加 工 ， 产 出 影响 人 类 社会 进步 的 新 产品 。 


计算 机 的 普及 与 算法 的 出 现 促使 互联 网 高 速 发 展 ， 素 积 沉 证 了 海 
量 的 数据 。 万 物 互联 时 代 ， 凡 有 是 能 人 藤 入 计算 机 的 设备 ， 都 将 成 为 计算 
装置 。 各 种 具备 智能 、 可 编程 的 计算 装置 的 数量 和 种 类 正 以 意 想 不 到 
的 速度 激增 ， 这 些 计算 凌 置 都 在 以 数字 化 的 方式 测量 和 记录 着 物理 世 
界 。 随 着 技术 问 前 推进 ， 人 类 活动 择 现 出 多 样 化 、 多 维度 、 零 时 天 等 
特点 。 连 入 网 络 中 的 所 有 硬件 时 刻 都 在 产生 数据 ， 手 机 、 电 脑 、 智 能 
家 电 ， 允 布 城市 每 个 角落 的 传 感 詹 不 知 疫 倦 地 上 传 、 下 载 数 据 。 据 统 
计 ， 互 联网 时 代 ， 每 天 每 人 总 共 会 产生 3 艾 字 区 的 计算 机 数据 ， 照 这 个 
速度 下 去 ， 到 2020 年 预计 会 形成 一 个 40 译 字 区 数据 质料 的 数据 宇宙 。 
如 此 大 量 的 信息 ， 应 该 是 非常 有 价值 的 。 


数据 让 市 场 变 得 更 聪明 。 在 2017 年 5 月 贵阳 大 数据 博览 会 上 ， 
阿里 巴巴 集团 董事 局 主席 马云 在 “机 融 智 能 "高峰 对 话 上 的 演讲 表示 ， 
大 数据 让 计划 和 人 研判 成 为 可 能 ， 市 场 变 得 更 加 聪明 。 为 了 优化 资源 配 
置 、 调 动 企业 和 劳动 者 积极 性 、 协 调经 济 发 展 ， 中 国 由 计划 经 济 转 辣 
市 场 经 济 ， 用 市 场 经 济 中 看 不 见 的 手 ， 进 行 宏观 调控 。 在 数据 经 济 时 
代 ， 借 助人 工 智能 、 互 联网 、 大 数据 ， 把 我 们 能 够 措 到 甚至 利用 的 那 
只 手 进行 新 时 代 的 “计划 ”经 济 。 


数字 文明 时 代 ， 数 据 将 成 为 人 类 关系 构建 、 社 会 结构 演进 的 新 视 
角 。 通 过 人 研究 数据 与 人 之 间 的 关系 以 及 数据 流 如 何 最 终 形 成 个 人 、 组 
织 、 城 市 和 社会 规范 ， 可 以 明 姑 地 颖 探 数 据 所 市 来 的 社会 结构 、 认 知 
结构 的 演化 和 变迁 。 正 如 大 卫 : 马 尔 所 称 的 行为 计算 理论 发 展 : 如 何 用 
数学 解释 社会 为 什么 会 产生 这 样 的 反应 ， 以 及 这 些 反应 怎样 解决 (或 
为 什么 不 能 解决 ) 人 类 的 问题 。 我 们 正 尝试 用 简单 数据 清晰 地 描述 社 
会 现象 ， 构 建 社 会 结构 的 因果 理论 。 


与 显微镜 、 望 远 镜 为 生物 和 天 文 研究 带 来 革命 一 样 ， 数 据 将 会 十 
覆 研究 人 类 行为 的 范式 。 原 来 的 “市 场 ”“ 资 本 “社会 学 "等 词汇 塑造 了 
我 们 对 世界 的 看 法 ， 它 们 固然 有 用 ， 但 也 代表 过 于 简单 和 传统 的 思 
维 ， 束 缚 我 们 对 未 来 清醒 而 有 效 的 思考 能 力 。 数 十 亿 条 的 电话 记录 、 
支付 记录 和 GPS 定位 记录 为 科学 家 提供 了 新 的 透镜 ， 使 我 们 可 以 观察 
到 社会 的 细微 之 处 。 大 数据 为 我 们 提供 了 洞悉 社会 各 种 复杂 性 的 机 
会 。 如 果 我 们 拥有 能 洞察 一 切 的 “上帝 之 眼 *， 就 极 有 可 能 真正 理解 社 
会 是 如 何 运作 的 ， 从 而 采取 措施 来 解决 人 类 面临 的 问题 。 


未 来 ， 我 们 很 可 能 掌握 关于 人 类 行为 的 无 比 丰富 的 连续 数据 。 一 
旦 实现 对 人 类 生活 模式 更 精确 的 可 视 化 ， 我 们 就 有 望 采取 更 适合 复 
杂 、 互 联 的 人 类 和 科技 网 络 的 方式 来 理解 和 管理 当代 人 社会。 我 们 构建 
的 社会 系统 不 再 局 限于 市 场 、 阶 层 和 政党 等 范围 的 集合 ， 而 是 考虑 了 
想法 交换 的 具体 模式 。 这 将 有 助 于 宫 造 一 个 更 好 地 避免 市 场 朋 演 、 种 


族 其 力 、 和 未 教 纷 争 、 政 治 僵局 、 腐 败 横行 以 及 专制 集权 的 社会 。 为 
此 ， 我 们 首先 需要 建立 有 利于 增长 和 创新 的 科学 、 可 靠 的 政策 ， 构 建 
保护 隐私 和 公众 知情 权 的 法 律 框架 。 这 些 措施 能 让 我 们 对 政策 的 执行 
有 全 新 的 认 知 ， 并 能 够 快速 有 效 地 采取 行动 解决 问题 。 


我 们 的 社会 已 经 开局 了 一 场 可 与 印刷 和 互联 网 市 来 的 章 命 相 比 肩 
的 伟大 旅程 。 云 脑 时 代 的 最 佳 搭 档 是 人 脑 + 电 脑 。 海 量 数据 人 迄 代 训练 
使 得 机 器 越 来 越 稍 能 ， 可 以 与 人 类 沟通 ， 甚 至 超越 人 类 的 某 些 能 
人 机 合作 将 能 够 解决 人 类 面临 的 复杂 问题 ， 创 造 出 一 个 在 管理 方面 更 
为 井井有条 的 时 代 。 我 们 第 一 次 获得 了 真正 了 解 我 们 目 身 和 社会 如 何 
演变 所 需要 的 数据 。 通 过 更 好 地 理解 目 己 ， 我 们 将 有 可 能 构建 一 个 没 
有 战争 或 金融 朋 浇 的 世界 ， 一 个 快速 发 现 和 过 制 传染 病 的 世界 ， 一 个 
不 再 当 费 能 源 、 资 源 的 世界 ， 一 个 政府 是 用 来 解决 问题 而 不 是 制造 问 
题 的 世界 。 然 而 ， 为 了 实现 这 些 目标 ， 我 们 首先 需要 了 解 激 活 数 据 学 
的 社会 学 范式 ， 然 后 决定 我 们 的 社会 应 该 把 什么 奉 为 至 宝 ， 以 及 我 们 
为 了 得 到 它们 甘愿 做 出 什么 样 的 改变 。 


(二 ) 计算 驱动 


计算 变 成 人 类 能 力 的 一 部 分 ， 成 为 一 种 核心 竞争 力 。20 世 
纪 30 年 代 ， 早 在 现代 计算 机 问世 之 前 芒 福 德 束 在 其 著作 中 指出 ， 目 动 
化 的 一 个 目的 是 “放大 人 体 的 机 械 或 者 感官 能 力 ， 将 人 类 生命 的 各 个 阶 
段 简化 为 可 以 测量 的 秩序 和 规律 ”。( 习 随 着 需求 的 提高 和 科学 的 进 
步 ， 很 多 最 新 的 技术 都 洱 兰 了 体力 延伸 、 感 官 延 伸 和 智力 延伸 三 个 方 
面 ， 并 刺 着 更 方便 、 更 节省 、 更 有 用 、 更 真实 的 原则 不 断 进 步 。 面 部 
识别 、 语 音 命令 、 眼 球 追 中 和 手势 控制 等 感知 计算 技术 将 人 脑 和 电脑 
有 效 地 进行 连接 ， 语 音 命 令 和 面部 识别 已 得 到 广泛 应 用 ， 而 眼球 追踪 
和 非 接 触 式 手势 控制 技术 也 获得 了 关注 。 后 两 种 技术 市 来 了 全 新 的 输 


入 方式 ， 未 来 也 将 逐渐 普及 。 测 量 殉 和 是 用 某 种 标准 矿 度 ， 对 事物 进 
行 “ 量 化 ”的 过 程 ， 感 知 计算 就 是 把 心理 学 、 生 理学 、 生 物 学 的 种 种 表 
征 ， 诸 如 情绪 、 感 知 、 豆 怒 受 乐 等 ， 借 助 感知 计算 技术 ,分 析 人 类 行 
为 数据 ， 发 现 社 会 隐形 秩序 。 


同时 ， 认 知 计算 通过 数据 挖掘 、 图 像 识 别 以 及 目 然 语言 来 进行 目 
我 学 习 ， 建 立 具 有 推理 能 力 ， 能 够 与 人 、 环 境 互动 并 目 行 解决 复杂 问 
题 的 计算 系统 ， 最 终 让 机 器 像 大 脑 一 样 轧 考 ， 为 人 类 提供 更 专业 的 决 
策 参 考 。 在 医疗 行业 ， 认 知 计算 提供 个 性 化 服务 ， 协 助 医生 搜索 和 分 
析 ， 担 任 医生 的 咨询 助手 ， 在 金融 行业 ， 它 可 以 解读 财务 、 法 规 、 经 
济 和 社会 数据 等 信息 ， 提 高 人 类 的 商业 洞察 力 ; 至 于 客户 服务 方面 ， 
它 通 过 分 析 客 户 行为 ， 为 客户 提供 更 好 的 体验 与 互动 。 计 算 能 力 的 提 
高 ， 能 够 更 快 、 更 好 、 更 准 地 找到 问题 、 解 决 问题 ,为 人 类 市 约 大 量 
的 时 间 ， 加 快 了 人 类 社会 演化 的 步伐 。 


计算 成 为 一 种 公共 服务 ， 是 创新 时 代 的 新 动能 。 计 算 对 数 
字 经 济 的 重要 性 ， 束 像 电 对 传统 经 济 的 重要 性 一 样 。 美 国 钙 人 类 历史 
上 第 一 次 把 电 变 成 公共 服务 的 国家 。 云 脑 时 代 ， 人 类 对 计算 的 需求 将 
达到 一 个 前 所 未 有 的 高 度 ， 同 时 对 获得 计算 能 力 的 公平 性 提出 了 挑 
战 ， 由 用 户 购 买 、 建 设 、 维 护 计算 基础 设施 的 传统 方式 日 益 显 得 低 效 
率 和 高 成 本 。 人 们 布衣 计算 资源 完全 能 够 像 水 、 电 、 煤 这 类 公共 产品 
一 样 通过 网 络 交 付 、 用 户主 导 、 需 求 驱 动 、 按 需 服务 、 即 用 即 付 。 从 
产业 角度 讲 ， 把 计算 变 成 一 种 新 的 普 患 性 的 公共 服务 ， 同 人 类 提供 高 
科技 、 低 门 榴 、 人 简单 易 用 的 计算 服务 和 能 力 ， 有 可 能 让 中 国 迎 来 一 次 
跨越 式 的 发 展 ， 文 撑 下 一 波 数 字 中 国 的 建设 和 发 展 。 云 脑 时 代 ， 云 计 
算 、 大 数据 、 人 工 智能 ， 都 将 成 为 基本 的 公共 服务 。 所 有 的 行业 ， 包 
括 物 流 业 、 制 造 业 、 服 务 业 、 金 融 业 、 教 育 业 ， 在 这 场 技术 章 命 的 推 
动 之 下 ， 将 变 得 更 高 效 、 更 公平 、 更 加 回归 行业 的 本 质 。 同 时 ， 当 计 
算 真正 变 成 一 种 公共 服务 时 ， 人 类 的 创造 力 以 及 想象 的 空间 将 实现 资 
源 配 置 效 益 的 最 大 化 ， 创 新 动能 将 喷涌 而 出 。 


计算 的 核心 在 于 算法 ， 算 法 是 驱动 云 脑 时 代 的 内 生动 力 。 
正如 伯 纳 德 : 沙 泽 勒 所 说 ，20 世 纪 是 方程 的 世纪 ， 但 21 世 纪 是 算法 的 世 
纪 。 云 脑 时 代 ， 普 惠 泛 在 的 信息 网 络 体系 人 人 共享 ， 数 据 连 接 型 社会 
孕育 而 生 ， 互 联网 变 成 基础 设施 ， 数 据 变 成 新 的 生产 资料 ， 计 算 变 成 
公共 服务 , “互联 网 + 数据 + 计算 ”将 产生 1+1+1>3 的 聚变 效应 ， 成 为 张 
动 云 脑 时 代 的 核心 引擎 ， 张 动 未 来 发 展 的 核心 动力 。 计 算 的 核心 在 于 
算法 ， 算 法 是 计算 的 灵魂 。 计 算 机 语言 从 Basic 到 C、C++、Java， 再 到 
后 来 的 PHP、Ruby 等 ， 你 方 唱 轩 我 登场 ， 让 人 眼花 综 乱 。 算 法 确实 是 
计算 机 科学 的 核心 ， 是 创造 计算 智能 、 解 决 科学 问题 、 开 发 商业 软件 
的 基础 。 在 21 世 纪 的 今天 ， 算 法 每 时 每 刻 都 会 对 展示 在 我 们 眼前 的 信 
娠 进 行 分 类 、 筛 选 和 取舍 。 我 们 看 到 的 百度 搜索 ， 微 信 、 微 博 上 显示 
的 好 友人 信息， 今日 头条 给 我 们 推荐 的 有 价值 的 、 个 性 化 的 信息 等 ， 都 
是 算法 作用 的 结 采 。 算 法 正在 以 各 种 各 样 的 方式 ， 影 响 着 世界 的 方 方 
面 面 ， 包 括 企 业 创 新 、 产 业 变革 、 经 济 发 展 。 


计算 是 思维 方式 的 技术 基础 ， 有 何 种 技术 基础 ， 束 有 相对 应 的 思 
维 方式 。 云 脑 时 代 ， 整 个 社会 和 经 济 体 系 可 能 都 要 基于 计算 的 变革 来 
重新 设计 ， 比 如 管理 进出 口 的 方式 ， 将 从 管理 “计算 机 ”的 进出 口 ， 演 
变 为 管理 “计算 ”的 进出 口 。 这 实际 上 已 经 发 生 了 。 正 如 ,今天 美国 的 
企业 在 利用 阿里 巴巴 的 云 计 算 ， 而 中 国 的 企业 在 使 用 亚马逊 的 云 计 
算 ， 计 算 已 经 成 为 和 高 铁 一 样 的 进出 口 产 品 ， 不 断 地 创造 “看 不 见 的 价 
值 ”， 张 动 未 来 社会 的 发 展 ， 成 为 云 脑 时 代 不 可 或 缺 的 一 部 分 。 


总 之 ， 一 个 优秀 的 工业 级 推荐 系统 需要 有 一 个 非常 灵活 的 算法 实 
验 平 台 ， 才 可 以 支持 多 种 算法 组 合 和 模型 结构 调整 。 不 过 很 难 有 一 套 
通用 的 模型 架构 适用 于 所 有 的 推荐 场景 。 现 在 很 流行 将 LR 《逻辑 回 
归 ) 和 DNN (深层 神经 网 络 ) 结合 ， 前 几 年 Facebook 也 将 LR 和 GBDT 

(梯度 提升 决策 树 ) 算法 做 了 结合 。 最 新 公开 的 今日 头条 的 算法 原理 
就 体现 了 其 算法 推荐 系统 的 强大 ， 尤 其 是 其 对 热度 特征 的 把 握 ， 包 括 
全 局 热度 、 分 类 热度 、 主 题 热 度 、 关 键 词 热度 等 ， 在 很 大 程度 上 体现 


了 激活 数据 学 中 关于 热点 城 量 的 基本 理念 。 正 是 通过 热点 减 量 ， 不 同 
内 容 热 度 信息 在 数据 量 大 的 推荐 系统 中 ， 特 别 是 在 用 户 冷 司 动 的 时 候 
束 变 得 非常 有 效 。 男 外 ， 算 法 对 泛 低 质 内 容 如 假 新 闻 、 黑 稿 、 题 文 不 
人 特 、 标 题 党 、 内 容 质 量 低 下 等 的 识别 技术 水 平 不 高 ， 仪 仅 由 机 器 辨别 
苹 非 常 难 的 ， 需 要 结合 人 工 复审 ， 将 阐 值 提高 ， 而 这 只 有 通过 有 效 的 
人 机 绪 合 及 智能 碰撞 后 ， 才 能 达到 更 有 效 的 结 末 。 


(三 ) 场景 驱动 


人 类 社会 进入 数字 文明 时 代 ， 数 据 爆 炸 正 在 驱动 着 新 的 组 
织 与 共享 模式 。 人 作为 客体 被 接 入 了 互联 网 ， 成 为 一 个 不 断 采 集 数 
据 并 辣 云 端 传输 数据 的 节点 ， 开 司 了 数据 人 时 代 。 人 在 不 同 场合 的 活 
动 都 将 在 数据 刻画 下 趋向 明显 化 。 合 歌 地 图 通过 采集 人 类 活动 数据 ， 
利用 定位 和 有 导航 技术 ， 刻 画 出 虚拟 世界 场景 并 在 线 上 展示 。 因 此 ， 谷 
歌 地 图 创造 了 一 个 合意 的 虚拟 线 上 场景 ， 来 弥补 线 下 合意 场景 的 不 
足 。2013 年 年 底 ， 有 报道 称 一 名 男子 在 5 多 时 被 殷 卖 到 千里 之 外 ，23 年 
后 他 通过 记忆 ， 借 助 谷歌 地 图 ， 找 到 了 回 家 的 路 。 现 实 中 一 些 人 类 行 
为 的 场景 只 有 通过 技术 手段 并 且 依 靠 虚拟 的 线 上 场景 展示 ， 才 能 最 大 
限度 地 产生 符合 人 类 行为 场景 的 合意 结 采 。 


场景 是 人 类 行为 的 反应 。 从 本 质 上 来 讲 ， 人 类 行为 是 按照 不 同 的 
场景 条 件 (如 自然 环境 、 风 俗 习惯 等 ， 对 自身 行为 进行 调整 的 过 
程 。 人 类 通过 对 不 同 场景 的 数据 进行 刻画 、 连 接 形 成 对 客观 世界 的 不 
同 镜像 世界 。 不 同 镜像 的 组 合 形成 不 同 的 体系 。 如 采 连 接 只 发 生 在 体 
系 与 体系 间 、 镜 像 与 镜像 间 ， 这 种 数据 之 间 的 互相 印证 只 能 文 持 模 糊 
结论 而 非 精 确 结 订 。 解决 精准 还 原 需 要 数据 的 “场景 化 ”。 在 任何 体系 
内 的 数据 抽取 和 沉积 都 只 能 是 客观 世界 的 反应 ， 是 客观 世界 的 一 部 
分 ， 而 不 古 全 部 。 镜 像 世 界 可 以 打破 数据 之 间 的 壁 难 ， 实 现 数 据 的 尝 


通 ， 提 高 数据 质量 ， 避 免 错 误 的 场景 重 现 ， 减 少 出 现 错误 的 连接 以 及 
错误 的 决策 ， 最 终 更 精确 还 原 人 类 行为 。 


场景 洞察 是 建立 在 场景 中 产生 的 数据 可 被 记录 和 分 析 的 基 
础 上 。 这 些 记录 下 来 的 数据 ， 可 以 帮助 我 们 形成 最 为 清晰 的 用 户 画 
像 ， 同 时 基于 数据 ， 我 们 可 以 进行 场景 的 量化 分 析 、 综 合 洞察 ， 更 深 
入 理解 场景 和 场景 中 人 的 决策 机 制 。 场 景 洞察 使 两 个 机 制 成 为 可 能 : 
第 一 个 机 制定 过 去 场景 可 追溯 ， 完 全 了 解 在 过 去 场景 中 人 的 决策 机 
制 ， 第 二 个 机 制 是 未 来 场景 可 感知 ， 是 对 未 来 进行 动态 、 持 续 更 新 变 
化 的 “态势 感知 ”>， 感 知 到 未 来 各 个 场景 的 发 展 态 势 ， 从 而 根据 需求 ， 
有 针对 性 地 构建 和 连接 场景 。 真 正 运用 好 全 局 数据 ， 可 以 利用 其 进行 
合适 的 场景 构建 、 匹 配 的 场景 连接 和 精准 的 场景 洞察 ， 这 会 真正 赋予 
数据 智慧 。 


数字 文明 时 代 的 场景 应 用 是 遂 人 愿 、 知 人 意 。 数 字 系统 可 以 
全 恩 完 整地 映射 物理 实体 世界 ， 可 以 完整 地 记录 人 的 性 格 、 思 维 、 习 
惯 以 及 生活 中 的 一 切 。 现 在 更 优质 的 数据 已 经 开始 具备 可 针对 不 同 个 
体 、 群 体 所 处 情境 ， 洞 察 情境 中 * 人 ”的 决策 机 制 ， 提 供 更 精准 、 更 智 
营 决 策 结 末 的 能 力 。 数 据 的 融会 贯通 ， 可 针对 不 同 个 体 、 和 群体 所 处 情 
境 ， 洞 察 情境 中 人 ”的 决策 机 制 ， 提 供 更 精准 、 更 智慧 的 决策 结 末 。 
借助 人 工 乔 能 快速 地 挖 据 和 搜集 相关 数据 ， 整 理 成 特定 地 点 或 环境 下 
针对 特定 客户 需要 的 形式 和 内 容 ， 让 用 户 轻松 掌握 ， 以 便 同 客户 在 特 
定 场 景 下 互动 交流 ， 达 成 目标 。 场 景 本 里 束 是 连接 。 场 景 连 氨 可 以 是 
整个 场景 与 场景 的 连接 ， 亦 可 以 是 场景 中 的 茶 个 要 素 之 间 的 连接 。 场 
景 的 智能 化 是 一 个 漫长 的 、 波 痕 式 推进 的 、 曼 旋 式 上 升 的 进化 过 程 ， 
从 感知 到 认 知 ， 从 本 能 到 技能 ， 从 组 织 到 上 自 组 织 ， 由 量变 到 质变 ， 由 
实体 化 到 数字 化 再 到 智能 化 ， 最 终 能 够 感知 和 协同 人 类 。 


数字 文明 的 场景 应 用 将 实现 人 的 充分 自由 。 马 克 思 说 : “-- 
个 种 的 所 有 特性 、 种 的 类 特性 就 是 在 于 其 生命 活动 的 性 质 ， 而 人 的 类 


特性 恰恰 就 是 自由 的 自觉 的 活动 。"* 沁 随 着 海量 数据 的 爆发 和 技术 的 
高 速 发 展 ， 人 、 机 、 物 能 够 目 由 连接 和 深刻 沟通 ， 相 互 演进 ， 涌 现 出 
更 多 、 更 新 、 更 酷 的 智能 化 现象 ， 一 大 波 远 超 当今 人 类 所 能 想象 的 智 
能 墨 科技 正在 加 速 到 来 。 万 物 的 互联 互通 ， 将 会 融 来 一 个 高 度 智 能 
化 、 人 性 化 的 世界 。 机 器 将 变 得 越 来 越 智能 ， 变 得 充分 满足 人 的 需 
求 ， 服 务 人 类 ， 顺 应 目 然 %。 人 类 目 身 的 六 能 也 将 从 过 去 数 十 万 年 间 长 
期 依赖 目 然 缓慢 进化 到 借助 人 工 智能 加 速 进化 的 过 程 ， 竺 别 是 当 脑 机 
接口 科技 重 现 摩 尔 定律 ， 成 本 大 幅 下 滑 ， 引 发 人 体 和 人 脑 联网 的 狂 测 
之 后 ， 人 类 将 越 来 越 目 由 目 在 地 进行 社会 活动 。 
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第 二 贡 
区 块 链 : 人 工 智能 任性 发 展 的 “保险 阀 ” 


(一 ) 哲学 视 域 下 的 人 工 智能 风险 


进入 21 世 纪 ， 人 类 社会 的 文明 演化 至 现 出 加 速 发 展 的 态势 。21 世 
纪 的 最 初 10 年 ， 以 互联 网 的 普及 使 用 为 纽 市 ， 社 会 结构 得 以 重新 组 
织 ， 人 类 社会 与 物理 社会 广泛 连接 ， 目 此 开启 了 与 以 往 有 别 的 网 络 社 
会 时 代 。 时 至 2010 年 左右 ， 基 于 广泛 分 布 的 传 感 技 术 、 大 规模 数据 存 
储 和 通信 技术 的 应 用 ， 数 据 规模 呈现 指数 级 上 升 趋势 。2015 年 以 后 ， 
伴随 着 数据 处 理 能 力 的 飞速 提高 ， 人 工 入 能 对 社会 开始 深度 介入 ， 世 
界 正 在 走 同人 工 闹 能 时 代 。 整 体 而 论 ， 人 类 在 进入 21 世 纪 的 三 个 关键 
时 期 ， 相 继 出 现 了 三 个 互相 联系 又 略 有 区 别 的 新 时 代 ， 即 网 络 社会 时 
代 、 大 数据 时 代 、 人 工 智能 时 代 ， 三 者 共同 构成 了 新 的 社会 时 代 ， 我 
们 将 这 种 新 的 社会 时 代称 为 “人 脑 + 电 脑 * 的 “ 云 脑 时 代 ”。 


云 脑 时 代 ， 人 工 知 能 作为 研究 、 开 发 用 于 模拟 、 延 伸 和 扩展 人 的 


智能 的 理论 、 方 法 、 技 术 及 应 用 系统 的 一 门 新 的 技术 科学 ， 虽 在 了 解 
智能 的 实质 ， 并 生产 出 一 种 新 的 能 以 人 类 和 希 能 相似 方式 做 出 反应 的 乔 


能 机 器 ， 其 研究 领域 包括 机 器 人 、 语 音 识别 、 图 像 识别 、 自 然 语言 处 
理 、 专 家 系统 等 。 这 一 技术 科学 将 改变 甚至 央 覆 人 类 现存 的 生产 工作 
和 交往 方式 ， 由 此 出 现 一 个 以 新 技术 结构 支撑 新 社会 结构 的 人 类 新 时 
代 。 


云 脑 时 代 ， 智 能 半 命 无 括 将 给 我 们 市 来 一 个 更 美好 的 社会 ， 它 二 
智能 的 、 精 细 化 的 、 人 性 化 的 “最 好 时 代 ”。 在 云 计算 、 大 数据 、 深 度 


学 习 算 法 、 人 脑 心 片 的 催化 下 ， 人 工 智 能 模拟 和 表现 出 人 类 的 智慧 动 
力 ， 并 以 高 于 人 类 的 工作 速度 、 优 于 人 类 的 工作 精度 、 胜 于 人 类 的 工 
作 态 度 ， 协 助人 类 解决 各 种 各 样 的 问题 ， 包 括 和 危险 场合 和 极端 环境 下 
的 难题 ， 从 而 形成 人 类 智慧 的 创造 力 优势 气 人 工 智能 的 操作 性 优势 之 
间 的 强 强 合 作 。 人 工 智 能 现 已 成 为 全 球 新 一 轮 革 命 和 产业 变革 的 着 力 
上 护 ， 在 人 类 吞 甘 能 力 无 穷 增 大 的 “科学 梦 * 背 后 ， 是 一 片 强 藏 无 限 生 机 
的 产业 “新 蓝海 *”。 社 会 正在 从 “互联 网 +” 癌 “人 工 关 能 +” 转 型 ， 传 统领 
域 生发 出 新 的 产业 形态 ， 多 领域 催生 了 新 兴 的 细 分 行业 ， 由 此 创造 出 
巨大 的 经 济 价值 和 社会 财富 。 


在 谷歌 、Facebook、IBM 等 领军 企业 的 带领 下 ， 全 球 对 人 工 智 能 
的 关注 度 不 断 提 升 。2015 年 全 球 人 工 智能 市 场 规模 为 1 683 亿 元 ， 预 计 
到 2018 年 将 增 至 2 697 亿 元 ， 增 长 率 达 到 17%。 在 投资 规模 方面 ，2015 
年 为 484 亿 元 ， 预 计 到 2020 年 ， 投 资 总 量 将 达到 1 190 亿 元 。 可 以 认 
为 ， 人 工 短 能 将 从 专业 性 较 强 的 领域 逐步 拓展 到 社会 生活 的 各 个 方 
面 ， 人 类 未 来 会 在 “万 物 丝 互联 、 无 处 不 计算 ”的 环境 下 精准 生活 。 但 
另 一 方面 ， 智 能 革命 也 将 给 我 们 带 来 诸多 麻烦 ， 也 许 我 们 面临 着 一 个 
社会 问题 从 生 和 安全 隐患 不 断 的 “最 坏 时 代 ”。 到 目前 为 止 ， 人 工 知 能 
已 在 全 球 范围 内 逐步 建立 起 自己 的 生态 格局 ， 并 开始 深度 介入 人 类 的 
社会 生活 。2016 年 ， 距 离 麦 卡 锡 、 明 斯 基 、 香 农 等 人 提出 人 工 智 能 的 
概念 正好 过 去 60 年 。 过 去 的 一 年 ， 人 们 看 到 了 许多 存在 于 科幻 小 说 的 
内 容 成 为 现实 : 人工 智能 击败 了 人 类 顶尖 棋 手 ， 自 动 驾 驶 汽车 技术 日 
趋 成 熟 ， 生 产 线 上 活跃 着 “机 器 人 "群体 ..…. 这 些 正 印证 了 “智能 时 代 ， 
未 来 已 来 ”。 人 们 在 为 人 工 智 能 的 强大 能 力 感 到 惊叹 的 同时 ， 也 激发 了 
对 人 工 知 能 安全 问题 的 普遍 忧虑 ， 人 工 矢 能 是 否 成 为 人 类 “最 后 的 发 
明 ”? 我 们 应 如 何 看 待人 工 智能 的 潜在 风险 ? 时 

人 工 智 能 的 首要 问题 是 安全 问题 。 从 时 间 向 度 来 说 ， 人 工 智能 风 


念 是 社会 历史 性 的 存在 ， 征 指 癌 未 来 的 将 来 时 态 的 词汇 ， 风 险 对 人 类 
的 影响 是 不 能 用 目 然 科 学 的 数据 标准 来 评定 的 ， 从 现存 状况 看 也 许 只 


影响 一 代 人 的 生存 ， 但 事实 上 可 能 损害 几 代 人 的 利益 。 从 空间 向 度 来 
说 ， 风 险 是 “全 球 地 区 性 的 "， 也 就 是 说 风险 既是 地 区 性 的 ， 又 是 全 球 
性 的 。 人 工 智能 按 实力 可 分 为 弱 人 工 智能 、 强 人 工 智能 、 超 级 人 工 知 
能 ， 那 么 人 工 智能 风险 可 能 造成 的 后 果 也 可 分 为 三 个 层次 ， 即 短期 危 
害 、 中 期 危害 、 长 期 危害 。 多 


短期 : 失业 、 隐 私 破 坏 、 技 术 依赖 。 人 工 智能 风险 的 短期 危 
害 已 经 出 现在 我 们 面前 了 。 在 失业 问题 上 ， 很 多 工厂 里 都 大 量 采 用 了 
弱 人 工 智能 机 器 ， 致 使 很 多 蓝领 工人 和 下 层 的 日 领 失去 工作 岗位 。 如 
今 ， 人 工 智能 己 经 在 制造 、 医 疗 等 行业 扮演 着 非常 重要 的 角色 。 人 工 
智能 可 以 提高 生产 力 ， 但 目前 我 们 不 能 摊 脱 基于 劳力 一 工资 的 经 济 模 
式 ， 人 工 智能 带 来 的 失业 问题 我 们 很 难 解 决 ， 在 隐私 安全 上 ， 随 着 知 
能 机 句 不 断 渗透 到 日 常生 活 中 ， 人 工 和 六 能 接触 个 人 隐私 的 机 会 越 来 越 
多 ， 傈 障 隐私 安全 变 成 一 项 难题 。 比 如 我 们 使 用 的 浏览 右 ， 它 会 记录 
个 人 经 常 访问 的 网 站 名 称 并 且 进 行 排序 ， 在 下 一 次 使 用 时 会 优先 提示 
这 些 网 站 的 地 址 ， 那 么 这 些 记录 会 完全 保密 吗 ? 谁 又 能 给 我 们 提供 保 
证 呢 ? 事实 上 ， 这 些 智能 软件 在 充当 “智能 管家 ”的 同时 也 扮演 着 偷盗 
者 的 角色 ; 在 技术 依赖 上 ， 人 工 智 能 技术 可 以 帮助 人 市 省 脑力 和 体力 
劳动 ， 并 且 在 一 定 程 度 上 提高 效率 和 安全 你 障 性 ， 但 长 此 以 往 ， 人 类 
必 将 缺乏 在 身体 工作 技能 和 逻辑 思维 能 力 上 的 培养 和 训练 ， 转 而 过 度 
依赖 人 工 智 能 技术 的 功效 ， 如 此 一 来 ， 必 然 会 造成 人 本 质 力 量 的 削弱 
和 精神 空虚 。 一 个 突出 的 现象 吏 是 “低头 族 ”， 即 使 面对面 ， 人 们 也 各 
目 采 着 手机 屏幕 ， 宁 愿 融 打 着 冰冷 的 屏幕 ， 也 不 愿 和 热情 的 杀 友 促膝 


长 谈 。 


中 期 : 威胁 公众 安全 问题 、 加 剧 社会 不 平等 。 埃 如 尔 
说 :“ 在 劳动 领域 ， 当 前 的 技术 进步 已 极 大 地 市 省 了 体力 付出 。 但 与 此 
同时 ， 这 种 进步 在 精神 方面 要 求 越 来 越 高 ， 以 至 精神 上 的 紧张 、 疲 劳 
和 前 省 反而 增加 了 “。x 中 人 工 智能 技术 也 是 如 此 。 在 公众 安全 上 ， 人 
工 智能 技术 的 发 展 给 人 们 提供 了 很 多 有 效 的 实用 性 工具 ， 以 专家 系统 


为 例 ， 它 应 用 人 工 智 能 技术 ， 根 据 某 领域 一 个 或 多 个 专家 提供 的 知识 
和 经 验 ， 进 行 推理 和 判断 ， 模 拟人 类 专家 的 决策 过 程 ， 以 解决 那些 需 
要 人 类 专家 处 理 的 复杂 问题 。 例 如 编写 一 个 医疗 专家 系统 ， 它 的 诊断 
水 准 可 以 达到 国内 外 顶级 医生 的 水 平 ， 但 是 专家 系统 并 不 是 完美 的 ， 
某 个 领域 的 专业 水 平 随 着 不 同 历史 时 期 的 更 迭 而 不 断 更 新 厦 ， 而 专家 
系统 受制 于 设计 者 的 局 限 ， 其 内 部 结构 的 更 新 总 会 出 现 一 定 的 请 后 
性 。 一 旦 医疗 专家 系统 与 网 络 连接 起 来 得 到 普及 ， 而 人 们 又 对 其 过 分 
依赖 ， 这 不 仅仅 会 导致 医疗 事故 的 发 生 ， 更 有 可 能 对 公众 安全 产生 威 
肋 ， 如 采 被 不 法 分 子 利用 ， 后 采 将 更 加 产 重 ;在 社会 效益 分 配 问 题 
上 ， 人 工 智能 风险 与 财富 一 样 ， 都 是 附着 在 阶级 模式 上 ， 但 以 颠倒 的 
方式 附着 ， 财 定 在 上 层 率 集 ， 而 人 工 闹 能 风险 在 下 层 聚 集 。 束 此 而 
言 ， 贫 穷 导 致 了 大 量 的 风险 ， 相 反 ， (收入 、 权 力 和 教育 上 的 ) 财富 
可 以 购买 安全 和 规避 风险 的 特权 ， 任 何 一 个 人 只 要 手头 有 长 期 银行 存 
折 ， 就 可 以 免 受 失业 的 奶 民 甚 至 可 以 巩固 目 喘 利益 ， 人 工 知 能 风险 实 
际 上 加 剧 了 社会 的 不 平等 。 


长 期 :消解 人 类 主体 地 位 。 从 中 期 看 ， 人 工 智能 风险 有 威胁 公 
众 安全 和 加 剧 社 会 不 平等 问题 ， 但 人 工 智 能 还 有 更 长 远 的 危害 ， 那 就 
是 消解 人 类 主体 地 位 。“ 有 了 人 ， 我 们 就 有 了 历史 ”，“ 全 部 人 类 历史 的 
第 一 个 前 提 无 疑 是 有 生命 的 个 人 的 存在 x 沁 ， 所 以 ， 人 是 社会 的 主 
体 ， 人 具有 主体 性 ， 社 会 历史 发 展 表 明正 因为 人 是 唯一 有 思想 会 创造 
的 高 等 动物 才 保 证 其 主体 性 。 然 而 这 种 特性 正在 慢 慢 被 人 工 智能 打 
破 ， 人 类 的 主体 地 位 将 被 消解 。 以 人 工 智能 机 器 人 为 例 ， 其 外 表 越 来 
越 台 真 ， 其 至 在 不 刻意 观察 时 完全 能 够 以 假 乱 真 ， 更 为 重要 的 是 ， 机 
器 人 已 经 具备 了 一 定 的 智能 程度 ， 在 一 定 场景 中 让 人 们 在 相当 长 的 一 
段 时 间 里 觉得 它 就 是 一 个 活生生 的 人 。 试 想 当 我 们 生活 中 这 样 的 机 器 
人 越 来 越 多 时 ， 所 有 的 事情 都 由 人 工 智能 代替 完成 了 ， 人 类 活着 有 意 
义 吗 ? 人 们 很 快 就 变 成 一 个 个 寄生 虫 ， 人 类 这 个 群体 就 会 在 智能 和 体 
能 上 和 急剧 衰退 ， 像 虫子 一 样 在 一 个 舒适 的 环境 里 活着 ， 这 样 每 个 个 体 


都 变 得 没有 生活 意义 的 时 候 ， 群 体 的 主体 地 位 将 会 被 消解 ， 最 终 走 同 
二 的 


所 以 ， 无 论 是 从 短期 、 中 期 、 长 期 看 ， 人 工 智能 风险 市 来 的 后 果 
可 能 都 是 极度 钨 怖 的 。 我 们 应 该 针对 这 些 可 能 出 现 的 一 系列 危害 ， 通 
过 开展 重点 研究 其 产生 根源 来 寻找 解决 方法 。 


(二 ) 区 块 链 与 秩序 互联 网 


人 工 知 能 风险 的 凸显 ， 引 起 了 人 们 的 高 度 关 广 。 人 工 智能 风险 问 
题 不 仅 是 人 类 遭遇 的 现实 困境 ， 也 应 该 引起 人 类 对 这 种 困境 的 目 觉 反 
思 。 对 这 一 问题 的 研究 只 有 站 在 哲学 的 高 度 ， 才 能 更 深刻 地 考察 人 工 
智能 风险 的 起 因 ， 更 清楚 地 审视 人 工 智能 技术 活动 模式 乃至 人 类 思维 
方式 对 当今 人 工 留 能 风险 大 规模 滋生 的 决定 性 影响 ， 从 而 促进 入 类 对 
技术 活动 发 展 的 理性 目 觉 。 中 国 哲 学 讲究 阴阳 转换 ， 否 极 泰 来 ， 世 界 
万 物 无 不 如 此 。 同 样 ， 统 一 、 对 立 和 互 化 ， 是 分 析 人 工 智能 风险 、 理 
解 当今 人 工 逢 能 技术 活动 的 科学 方法 。 


区 块 链 的 兴起 正 古 中 国 哲 学 的 阴阳 平衡 思想 的 最 住 体 现 。 与 国外 
区 块 链 研究 者 、 应 用 者 不 同 ， 我 们 认为 区 块 链 不 是 云 计 算 、 大 数据 中 
心 化 的 苦 代 ， 而 是 补充 和 平衡 。 正 如 阴 在 阳 之 内 ， 不 在 阳 之 对 。 区 块 
链 技术 关于 化 名 为 “中 本 聪 ?的 学 者 在 2008 年 发 表 的 葛 基 性 论文 《比特 
币 : 一 种 点 对 点 电子 现金 系统 》。 区 块 链 是 指 通过 去 中 心 化 和 去 信任 
的 方式 集体 维护 一 个 可 靠 数 据 库 的 技术 方案 。 该 技术 方案 让 参与 系统 
的 任意 多 个 市 点 ， 把 一 段 时 间 系 统 内 全 部 信息 交流 的 数据 ， 通 过 密码 
学 算法 计算 和 记录 到 一 个 数据 块 ， 并 且 生 成 该 数据 块 的 指纹 用 于 链接 
下 一 个 数据 块 和 校 验 ， 系 统 所 有 参与 入 点 来 共同 认定 记录 是 否 为 真 。 
区 块 链 技术 具有 去 中 心 化 、 去 信任 、 安 全 性 高 等 竺 点， 被 认为 是 继 大 


型 机 、 个 人 电脑 、 互 联网 之 后 计算 模式 的 颠覆 式 创新 ， 很 可 能 在 全 球 
范围 内 引起 一 场 新 的 技术 章 新 和 产业 变 草 。 


去 中 心 化 。 区 块 链 去 中 心 化 的 特征 意味 着 区 块 链 不 再 依赖 中 央 
处 理 节点 的 情况 下 ， 实 现 了 数据 的 分 布 式 记录 、 存 储 和 更 新 。 区 块 链 
的 设想 是 由 不 同 的 节点 共同 组 成 的 一 个 点 对 点 网 络 ， 不 设置 中 心 化 的 
管理 节点 或 机 构 ， 在 该 网 络 中 ， 各 个 节点 之 间 的 权利 和 义务 都 是 均等 
的 ， 即 该 系统 中 的 所 有 节点 都 可 以 进行 记录 及 校 验 ， 然 后 通过 分 布 式 
的 传播 方式 把 计算 所 得 出 的 数据 结果 分 别 发 给 各 个 节点 ， 即 使 部 分 节 
点 被 损坏 ， 整 个 系统 的 运作 也 不 会 受到 影响 ， 也 就 是 说 每 个 参与 其 中 
的 节点 都 是 “< 自 中 心 。 多 


去 信用 化 。 区 块 链 最 大 的 颠覆 性 在 于 新 的 信用 形成 机 制 。 在 传 
统 的 互联 网 模式 中 ， 阳 生 人 之 间 坪 通过 可 信任 的 第 三 方 机 构 来 建立 信 
用 和 进行 交易 ， 而 区 块 链 从 根本 上 改变 了 中 心 化 的 信用 创建 方式 ， 它 
运用 一 套 基 于 共识 的 数学 算法 ， 在 机 融 之 间 建 立 “信任 ”网 络 ， 从 而 通 
过 技术 来 建立 信用 ， 而 不 是 通过 中 心 化 的 第 三 方 平 台 。 和 凭借 其 去 信用 
化 的 机 制 ， 参 与 方 无 须 清楚 相关 交易 方 是 谁 ， 更 不 需要 通过 第 三 方 来 
进行 背书 与 担保 ， 只 需要 信任 区 块 链 的 共同 算法 便 可 ， 算 法 为 参与 者 
创造 信用 、 产 生 信任 和 达成 共识 提供 了 保障 。 


智能 合约 。 智 能 合约 是 一 种 用 计算 机 语言 取代 法 律 语言 记录 条 
款 的 合约 。 智 能 合约 可 以 由 一 个 计算 系统 自动 执行 。 如 果 区 块 链 是 一 
个 数据 库 ， 智 能 合约 就 是 能 够 使 区 块 链 技术 应 用 到 现实 当中 的 应 用 
层 。 传 统 意义 上 的 合同 一 般 与 执行 合同 内 容 的 计算 机 代码 没有 直接 联 
系 ， 纸 质 合同 在 大 多 数 情况 下 是 被 存档 的 ， 而 软件 会 执行 用 计算 机 代 
码 形式 编写 的 合同 条 款 。 智 能 合约 的 潜在 好 处 是 降低 签订 合约 、 执 行 
和 监管 的 成 本 。 因 此 ， 对 很 多 有 着 低 价值 交易 特点 的 合约 来 说 ， 使 用 
智能 合约 便 能 极 大 地 降低 人 力 成 本 。( 馈 


分 布 式 账本 。 分 布 式 账本 是 一 个 允许 用 户 在 多 个 接 入 点 和 地 理 
位 置 组 成 的 区 块 链 网 络 中 进行 点 对 点 交易 的 资产 数据 库 。 该 网 络 的 参 
与 者 可 以 获得 一 个 由 共识 协议 生成 的 真实 账本 的 副本 且 这 一 副本 具有 
唯一 性 。 账 本 中 的 任何 一 个 改动 都 需要 经 全 体 接 入 网 络 的 用 户 进行 多 
数 确 认 后 才 会 被 记录 ， 而 账本 中 的 记录 变化 会 体现 在 任何 一 个 对 应 的 
副本 中 ， 一 般 情 况 下 完成 这 一 过 程 通常 只 需要 数秒 或 至 多 几 分 钟 。 任 
何 实体 资产 、 虚 拟 资 产 和 其 他 在 金融 和 法 律 上 加 以 定义 的 资产 都 可 以 
使 用 分 布 式 账 本 进行 存储 。 账 本 使 用 公 铀 、 私 铀 和 签名 来 控制 对 账本 
资产 信息 的 访问 ， 从 而 保证 了 账本 记录 的 安全 性 和 准确 性 ， 从 密码 学 
的 角度 为 账本 加 上 了 保险 。 通 过 对 网 络 基 本 构成 元 素 智 能 合约 的 修改 
和 定义 共识 机 制 ， 可 指定 人 、 团 体 、 集 团 对 资产 进行 修改 的 权限 。 人 四 


不 可 自 改 。 区 块 链 是 基于 时 间 玲 形成 的 不 可 算 改 、 不 可 伪造 的 
数据 库 。 区 块 (完整 历史 ) 与 链 (完整 验证 ) 相 加 便 形成 了 时 间 翟 
(可 追溯 完整 历史 ) 。 时 间 戳 存储 了 网 络 中 所 有 已 经 执行 过 的 交易 历 
史 ， 并 可 提供 检索 和 得 找 交 易 数据 的 功能 ， 另 外 会 借助 区 块 链 目 生 的 
组 织 架 构 对 其 历史 交易 数据 进行 退 溯 及 验证 。 每 个 太 点 在 记录 时 会 生 
成 区 块 并 在 其 上 加 盖 时 间 稚 ， 并 对 全 网 所 有 市 点 进行 播放 ， 让 各 参与 
方太 部 能 获得 一 份 完整 的 交易 数据 拷贝 。 一 旦 信息 经 过 验证 添加 到 区 
块 和 链 上 ， 束 会 永久 地 存储 起 来 。 如 果 想 要 自 改 历史 信息 ， 必 须 同时 挥 
制 整个 系统 中 超过 51% 的 太 点 。 因 此 区 块 链 技术 被 认为 是 可 靠 性 很 融 
的 数据 技术 ， 且 系统 中 参与 交易 的 市 点 越 多 、 计 算 能 力 越 强 ， 其 数据 
的 安全 性 越 高 。 


(三 ) 区 块 链 重 塑 人 工 智能 时 代 新 生态 


“社会 不 是 坚实 的 结晶 体 ， 而 是 一 个 能 够 变化 并 且 经 常 处 于 变化 过 
程 中 的 机 体 。" 沁 当今 ， 信 息 技术 正 以 前 所 未 有 的 广度 和 深度 塑造 这 


个 社会 的 特征 与 面 狐 ， 塑 造 社会 成 为 一 个 新 的 有 机 体 。 人 类 对 技术 的 
关注 与 其 对 目 身 生存 的 关注 几乎 是 同等 重要 的 对 待 ， 怠 像 有 的 学 者 所 
言 : “你 如 何 理解 人 ， 你 就 会 如 何 理解 技术 ;你 怎么 看 待 技术 ， 你 就 会 
怎么 看 待人 ”。 人 四 作为 信息 技术 体系 的 一 部 分 ， 区 块 链 不 可 否认 地 促 
进 了 人 工 乔 能 的 创新 。 区 块 链 和 人 工 智 能 这 两 种 拉 术 的 复杂 程度 不 一 
样 ， 商 业 意义 也 不 一 样 ， 但 是 如 果 能 将 两 者 整合 在 一 起 ， 那 么 整个 拉 
术 和 人 类 范式 可 能 将 会 重新 定义 。 


从 认识 论 的 角度 出 发 ， 区 块 链 技术 将 会 连接 虚拟 与 现实 世界 ， 成 
为 “虚拟 世界 一 现实 世界 ”中间 的 链 桥 ， 且 该 技术 带 来 的 影响 将 会 是 革 
命 性 的 ， 而 “革命 "的 核心 是 虚拟 世界 的 “ 球 籍 "。 无 论 何 种 事物 ， 个 人 
也 好 ， 集 体 也 里 ， 缘 存在 于 现实 世界 ， 且 至 少 可 以 “我 思 故 我 在 *。 相 
反 地 ， 随 着 占 比 越 大 的 现实 世界 移 到 虚拟 世界 ， 虚 拟 世界 的 权重 便 逐 
渐 增 大 ， 不 参加 者 将 被 边缘 化 。 软 件 定义 一 切 势 在 必 行 ， 定 义 数据 ， 
定义 功能 ， 定 义 机 器 ， 定 义 过 程 ， 定 义 规则 ， 定 义 网 络 ， 定 义 虚 拟 的 
数字 世界 ， 可 谓 是 定义 了 可 以 定义 的 一 切 。( 电 区 块 链 从 抽象 的 角度 来 
审视 ， 是 利用 分 布 式 技术 和 共识 算法 重新 构造 的 一 种 信任 机 制 ， 存 在 
于 虚拟 世界 。 从 根本 上 来 说 ， 区 块 链 技术 的 影响 在 于 给 出 了 这 样 一 个 
信号 : 重 构 虚 拟 世 界 与 现实 世界 的 关系 ， 其 核心 是 改造 现实 世界 ， 提 
升 现 实 世界 的 有 序 度 。 不 过 ， 昌 乃 基 同 时 也 指出 ， 并 非 现实 世界 的 一 
切 丝 能 迁移 到 虚拟 世界 。 这 样 的 情况 大 致 可 分 为 下 列 几 种 。 其 一 ， 难 
度 大 而 一 时 移 不 过 去 ， 例 如 某 些 久远 年 代 部 落 中 的 “绝技 *。 其 二 ， 某 
些 知 识 因 产 权 归 属 的 原因 而 不 被 允许 或 只 能 部 分 移 至 虚拟 世界 。 其 
三 ， 因 种 种 因素 如 权力 的 干预 、 情 感 的 渗透 等 而 成 为 个 案 以 及 不 知 所 
云 的 “精神 ”* 情 ”等 ， 因 无 法 经 过 编程 而 被 屏蔽 于 虚拟 世界 之 外 。 其 
四 ， 现 实 世 界 拒 绝 虚拟 世界 的 介入 ， 壁 如 某 个 国家 拒绝 另外 一 个 国家 
的 相关 网 站 的 链接 。 这 些 移 不 过 去 的 部 分 ， 哪 怕 再 有 价值 ， 传 播 的 力 
度 再 大 ， 也 难以 逾越 现实 世界 中 形形色色 的 壁垒 ， 也 有 可 能 * 死 "在 “最 
后 一 公里 ”。( 沁 ) 在 吕 乃 基 看 来 ， 现 实 世 界 在 虚拟 世界 重 构 ， 虚 拟 世界 


不 是 现实 世界 稍 单 的 “了 映射 没 射 >， 而 是 选择 性 重 构 。 这 种 "选择 ”， 
在 某 种 意义 上 可 以 说 是 一 场 “ 没 有 硝烟 的 革命 ”。 


“区 块 + 链 + 时 间 堆 ”可谓 是 区 块 链 数 据 库 的 最 大 创新 点 ， 每 一 个 区 
块 都 盖 上 一 个 “时 间 玲 * 来 记 账 ， 从 而 形成 不 可 党 改 、 无 法 伪造 的 数据 
库 。 对 人 工 乔 能 发 展 产 生 以 下 几 条 站 儿 性 的 影响 。 


帮助 人 工 智能 解释 自己 。 人工 智 能 黑 盒 遭 遇 了 可 解释 性 的 问 
题 。 有 一 个 清晰 的 审计 跟踪 不 仅 可 以 提高 数据 的 可 信 性 ， 还 可 以 提高 
模型 的 可 信和 度 ， 也 为 追溯 机 器 决策 过 程 提 供 了 一 条 清晰 的 途径 。 


提高 人 工 智能 的 有 效 性 。 安 全 的 数据 共享 意味 着 更 多 的 数据 和 
更 多 的 训练 数据 ， 然 后 会 形成 更 好 的 模型 ， 更 好 的 行动 ， 更 好 的 结 采 
以 及 更 好 的 新 数据 。 到 头 来 网 络 效 应 是 最 重要 的 东西 。 


降低 市 场 的 准 入 障碍 。 区 块 链 技术 可 以 保护 你 的 数据 。 那 么 你 
为 什么 不 能 私下 存储 你 所 有 的 数据 ， 或 者 出 售 这 些 数据 呢 ? 你 也许 会 
这 人 么 做 。 那 么 首先 ， 区 块 链 将 促进 更 干净 、 更 有 组 织 的 个 人 数据 的 建 
立 。 其 次 ， 区 块 链 会 促进 新 市 场 的 出 现 ， 比 如 数据 市 场 、 模 型 市 场 ， 
甚至 可 能 还 会 出 现 人 工 关 能 市 场 。 因 此 ， 人 简单 的 数据 共 译 和 新 的 市 
场 ， 再 加 上 区 块 链 数据 验证 一 起 ， 这 些 将 提供 更 加 顺畅 的 集成 ， 从 而 
降低 小 企业 的 进入 门槛 ， 缩 小 科技 巨头 的 竞争 优势 。 在 降低 进入 门槛 
的 努力 中 ， 我 们 实际 上 解决 了 两 个 问题 ， 即 提供 更 广泛 的 数据 访问 以 
及 更 有 效 的 数据 货币 化 机 制 。 


增加 对 人 工 的 信任 。 一 旦 我 们 的 部 分 任务 交 给 自动 虚拟 代理 来 
管理 ， 清 晰 的 审计 跟踪 将 可 以 帮助 机 顺 人 相互 信任 ， 并 且 帮 助人 类 去 
信任 它们 。 在 有 了 分 项 数据 以 及 协调 决策 ， 再 加 上 有 健全 的 机 制 到 达 
法 定 人 数 (与 群体 机 器 人 和 多 代理 场景 高 度 相 关 ) 的 安全 手段 之 后 ， 
最 终 还 将 增加 机 融 与 机 器 之 间 的 交互 和 交易 。 


减少 灾难 性 风险 的 情况 。 加 入 智能 合约 的 人 工 智 能 只 能 执行 预 
先 被 写 入 代码 的 动作 ， 而 这 些 动作 会 被 代码 刚性 约束 ， 不 受 情感 、 关 
系 、 人 脉 等 的 影响 ， 避 开 现 实生 活 中 “熟人 社会 ”的 天 系 操 作 ， 这 些 代 
码 也 可 以 写 和 法律 、 伦 理 、 道 德 ， 进 而 使 人 工 智 能 也 受 法 律 、 道 德 的 
约束 ， 那 么 人 工 智能 机 需 的 行动 空间 也 征 合 法 的 。 
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第 三 节 
数 权 法 与 数字 文明 新 时 代 


(一 ) 云 脑 时 代 的 制度 安排 与 法 律 规 制 


人 类 社会 的 文明 演化 在 新 世纪 呈现 出 加 速 发 展 的 态势 ， 互 联网 科 
技 的 普及 催化 了 社会 结构 的 重组 ， 人 类 自 此 开启 了 有 别 于 以 往 的 网 络 
社会 时 代 。 整 体 而 论 ， 到 21 世 纪 相继 出 现 了 互相 联系 又 略 有 区 别 的 新 
时 代 ， 即 网 络 社会 时 代 、 大 数据 时 代 、 人 工 智能 时 代 、 云 脑 时 代 ， 他 
们 共同 构成 了 新 的 社会 时 代 。 云 脑 时 代 ， 数 据 成 了 变量 ， 同 时 也 是 推 
动 生产 和 生活 方式 根本 变革 的 核心 力量 。 马 云 在 2017 年 第 四 届 世 界 互 
联网 大 会 上 的 演讲 中 说 : “互联 网 正在 深入 社会 ， 超 过 未 来 一 切 技术 革 
命 的 总 和 。 未 来 30 年 数据 将 成 为 生产 资料 ， 计 算是 生产 力 ， 互 联网 是 
一 种 生产 关系 。 如 果 我 们 不 数据 化 ， 不 和 互联 网 相连 ， 那 么 会 比 过 去 
30 年 不 通电 显得 更 为 可 怕 。* 归 


“这 是 最 好 的 时 代 ， 也 是 最 坏 的 时 代 。” 一 方面 ， 随 着 人 工 智能 发 

展 ， 数 据 作 为 生产 资料 的 价值 将 会 逐步 在 社会 生活 的 各 个 方面 凸显 ， 
人 类 未 来 会 在 “万 物 展 互联 、 无 处 不 计算 ”的 环境 下 精准 生活 。 另 一 方 
面 ， 在 数据 领域 ， 由 于 法 律 约束 和 制度 规范 到 缺 ， 人 工 智能 带 来 隐私 
数据 泄露 、 真 假 数据 混杂 等 诸多 麻烦 ， 也 许 我 们 也 面临 着 一 个 社会 问 
题 从 生 和 安全 隐患 不 断 的 “最 坏 时 代 ”。 数 据 改变 了 人 类 社会 的 沟通 和 
认 知 方式 ， 未 来 所 有 的 人 和 物 都 将 作为 一 种 数据 而 存在 ， 作 为 一 种 数 
据 而 联系 ， 作 为 一 种 数据 而 共同 创造 价值 。( 四 在 大 数据 作用 下 ， 自 然 
会 党 化 为 数据 化 的 人 ， 即 “数据 人 ”。 围 绕 “ 数 据 人 ”会 产生 相关 法 律 
关系 ， 产 生 数 据 主权 、 数 据 权 利 等 。 这 里 的 数据 权利 并 非 一 套 独 立 的 


权利 体系 ， 而 是 基于 虚拟 空间 产生 的 现行 立法 体系 无 法 调整 的 一 项 权 
利 而 已 。 在 脱离 了 既 有 权益 你 障 体系 文 持 下 ， 数 据 纠 纷 又 缺少 与 新 型 
数据 处 理 行为 法 律 体系 的 接口 ， 因 而 独立 成 为 一 种 新 型 纠纷 。 现 有 权 
利 体系 对 数据 的 保护 还 存在 一 些 困境 ， 下 面 主 要 从 人 格 权 学 说 、 隐 私 
权 学 说 、 物 权 学 说 、 债 权 学 说 以 及 知识 产权 学 说 这 5 个 方面 进行 说 明 。 


人 格 权 学 说 对 数据 保护 的 局 限 。 人 格 权 侧重 保护 数据 个 人 精 
神权 利 ， 无 法 保护 数据 权 中 的 财产 权 。 根 据 传统 民法 理论 ， 人 格 权 坪 
一 项 纯粹 的 精神 性 权利 。 数 据 权 利 包 括 数 据 人 格 权 和 数据 财产 权 ， 其 
兼 重 保护 个 人 的 精神 性 权利 和 财产 性 权利 。 数 据 权 利平 衡 的 是 数据 权 
利 主体 、 数 据 处 理 者 、 数 据 利用 者 等 之 间 的 关系 ， 需 要 兼顾 数据 权利 
主体 的 精神 性 权益 和 财产 性 权益 ， 以 及 数据 处 理 者 、 数 据 利用 者 等 的 
财产 性 权益 。 


隐私 权 学 说 对 数据 保护 的 局 限 。 隐 私 权 侧重 保护 个 人 隐私 数 
据 ， 但 某 些 个 人 隐私 数据 可 能 存在 于 社会 公共 秩序 范畴 ， 这 部 分 数据 
无 法 受到 相应 的 保护 。 隐 私信 息 包 括 个 人 信息 、 个 人 活动 、 个 人 空间 
等 ， 与 公众 无 关 的 个 人 信息 不 会 同 社 会 公开 ， 属 于 私人 范畴 : 个 人 数 
据 中 例如 公布 于 众 的 姓名 、 电 话 、 地 址 等 数据 ， 或 者 某 些 原本 就 属于 
社会 公共 秩序 范畴 的 数据 ， 这 部 分 的 数据 保护 受到 公共 利益 的 限制 。 
因此 ， 对 个 人 数据 而 言 ， 只 能 保证 某 些 数据 是 处 于 保密 状态 ， 大 部 分 
数据 仍然 是 非 保密 状态 。 同 时 ， 个 人 对 外 公开 的 数据 信息 经 过 技术 脱 
敏 后 ， 增 加 了 隐私 利益 的 复杂 性 。 个 人 无 法 通过 隐私 权限 制 他 人 使 用 
作为 信息 载体 的 数据 ， 数 据 所 包含 的 财产 利益 也 殊 无 从 谈 起 。 因 此 ， 
忠 个 人 数据 处 理 而 言 ， 当 前 的 隐私 法 能 给 个 人 数据 提供 的 保护 十 分 有 
限 。 


物 权 学 说 对 数据 保护 的 局 限 。 物 权 法 侧重 保护 归属 明确 的 物 
体 ， 而 数据 在 产生 到 形成 分 析 结 采 这 个 过 程 中 从 属 不 同 的 主体 ， 权 属 
并 不 明确 ， 因 此 保护 范围 受 限 。 从 数 权 归 属 看 ， 物 权 学 说 偏 于 强调 挥 


制 权 ， 使 用 权 处 于 从 属地 位 。 个 人 仅 是 数据 产生 的 供 体 ， 离 开 数据 采 
集 者 的 网 络 服务 与 技术 支持 ， 数 据 根本 无 法 产生 ， 其 所 承载 的 信息 自 
然 也 就 随 之 消失 。( 时 < 所 有 法 律 对 数据 秩序 的 权利 设计 或 利益 分 配 ， 
都 需要 合适 的 代码 来 实现 。* 思 也 就 是 说 ， 个 人 对 个 人 数据 无 法 享有 
完整 的 物 权 权能 ， 无 法 用 于 数据 交易 ， 无 法 通过 物 权 行 使 数据 权利 。 
这 说 明 物 权 学 说 在 数 权 保 护 问题 上 面临 着 局 限 。 


债权 学 说 对 数据 保护 的 局 限 。 债 权 侧重 以 合同 关系 为 依据 对 
虚拟 财产 进行 保护 ， 而 数据 债权 与 数据 债务 之 间 的 合同 关系 无 法 明 
蜥 ， 因 此 无 法 受到 保护 。 债 权 说 主要 利用 合同 法 对 虚拟 财产 进行 保 
护 。 在 数据 债权 与 数据 债务 关系 中 ， 数 据 主 体 与 数据 采集 者 之 间 可 能 
存在 合同 关系 ， 但 由 于 数据 权利 的 复杂 性 与 动态 性 ， 数 据 主 体 与 其 他 
数据 利用 者 之 间 无 法 建立 第 三 人 利益 合同 。 有 即使 建立 了 利他 合同 关 
系 ， 基 于 利益 衡量 ， 数 据 利 用 者 作为 合同 拓 供 者 往往 将 数据 主体 应 有 
的 权利 排除 在 外 。 对 于 合同 关系 中 没有 明确 的 数据 权利 内 容 ， 数 据 权 
利 主体 没有 权利 依据 请 求 认 定 权 利 排除 条 款 无 效 。 合 同 主体 不 是 将 数 
据 看 作 一 种 特定 的 客体 ， 就 古 忽略 不 论 。 在 对 数据 的 认定 中 ， 数 据 的 
法 律 地 位 并 没有 得 到 解决 。 这 使 得 用 债权 债务 相关 条 球 保 护 数 据 权 利 
时 会 产生 一 系列 问题 。 


知识 产权 学 说 对 数据 保护 的 局 限 。 个 人 数据 并 不 属于 知识 产 
权 保护 范畴 ， 因 此 不 能 对 其 进行 保护 。 目 前 还 没有 哪个 国家 将 个 人 数 
据 作 为 一 类 单独 的 知识 产权 加 以 保护 。 有 学 者 提出 应 将 个 人 数据 纳入 
知识 产权 保护 的 范畴 ， 这 种 语 境 下 的 个 人 数据 权利 保护 路 径 是 站 在 数 
据 利用 者 的 角度 提出 的 ， 并 非 针 对 数据 主体 的 应 然 权 利 提出 的 保护 路 
径 。 数 据 与 知识 之 间 存 在 着 一 种 天 然 的 内 在 联系 ， 数 据 权 利 与 知识 产 
权 的 权利 属性 存在 着 诸多 相似 之 处 ， 同 时 ， 数 权 保 护 是 为 了 在 促进 利 
用 的 同时 确保 开放 。 如 此 看 来 ， 知识 产 权 法 钙 最 接近 数 权 你 扩 要 求 的 
保护 体系 。 但 从 本 质 上 说 ， 数 据 不 可 能 纳入 知识 产权 保护 的 法 律 体系 
中 : 第 一 ， 数 据 没 有 独创 性 ， 不 符合 知识 产权 保护 有 要求 ; 第 二 ， 数 据 


权利 可 重复 使 用 ， 数 据 生 产 者 对 数据 不 具备 绝对 控制 权 ， 不 满足 知识 
产权 剑 护 要求 ， 无 法 对 其 进行 体 护 。 


(二 ) 数 权 法 构建 数字 文明 新 秩序 


从 法 理 上 说 ， 法 律 系统 应 社会 需求 而 生 ， 并 随 着 社会 文明 程度 的 
提升 而 不 断 改 进 和 更 新 。 人 类 社会 进入 云 脑 时 代 已 是 必然 ， 数 据 作 为 
云 脑 时 代 的 生产 资料 也 毋庸 置疑 ， 但 在 现 有 的 权利 体系 下 无 法 实现 对 
数据 的 规范 及 保护 ， 因 此 ， 数 权 法 的 重要 性 不 言 而 喻 。 社 会 文明 从 农 
寿 文明 演变 到 工业 文明 再 到 现在 的 数字 文明 ， 人 类 也 从 “君权 ” 物 
权 ” 迈 同 了 “ 数 权 ” 时 代 ， 法 律 也 应 在 “人 法 ”“ 物 法 ”的 基础 上 增加 “ 数 
法 ”以 期 形成 制度 化 、 法 制 化 的 社会 治理 体系 应 对 未 来 社会 的 制度 调 
整 和 结构 调整 。 


“ 数 权 ” 赋 予 云 脑 时 代 公 民 新 权益 。 数 据 的 所 有 权 、 知 情 权 、 
采 和 集权、 保存 权 、 使 用 权 、 隐 私 权 等 ， 构 成 了 每 个 公民 在 大 数据 时 代 
的 新 权益 。 在 性 质 上 ， 数 权 是 一 种 集 人 格 权 和 财产 权 为 一 体 的 综合 性 
权利 ， 数 权 主 体 在 译 有 人 格 权 利 的 同时 也 至 有 财产 权利 。 维 护 数 据 主 
体 为 人 的 草 严 是 数 据 人 格 权 的 核心 价值 观 ， 强 调 数据 主体 应 受到 的 草 
重 ， 孚 有 目 由 不 受 剥 夺 、 名 誉 不 受 侮辱 、 隐 私 不 被 条 探 、 信 息 不 被 盗 
用 等 权利 。 除 此 之 外 ， 数 据 的 价值 和 共 至 性 使 其 成 为 一 种 重要 的 社会 
人 资源， 因而 有 必要 赋予 数据 财产 权 ， 保 护 数 据 财产 。 


数据 权 包 含 公 权 和 私 权 两 种 。 对 数据 权 的 权利 保护 是 一 个 安 观 的 
概念 ， 可 分 为 公 权 视野 下 的 数据 国家 主权 和 私 权 视野 下 的 个 体 数 据 
权 。 在 我 国 ， 数 据 的 主体 多 样 ， 包 括 个 人 人、 法人、 公共 机 构 、 政 府 
等 ， 所 以 数 权 既 需要 公法 规制 ， 也 需要 私法 规制 : 其 一 ， 指 向 公 权 
力 ， 即 以 国家 为 中 心 构建 的 数据 权力 ， 它 是 以 数据 管理 权 和 数据 控制 


权 为 核心 内 容 的 国家 数据 主权 ; 其 二 ， 指 向 私 权力 ， 即 以 个 人 为 中 心 
构建 的 数据 权利 ， 包 括 数据 人 格 权 和 数据 财产 权 。 


“ 数 权 法 ”是 数 权 保 护 的 新 规制 。 数 权 法 是 调整 数据 权 属 、 利 
用 和 保护 的 法 律 制度 。 数 权 的 法 律 规制 主要 包括 数据 主权 、 个 人 数据 
权 和 数据 共享 权 。 数 据 主 权 体 现 为 国家 对 其 政权 管辖 地 域内 的 数据 享 
有 的 生成 、 传 播 、 管 理 、 控 制 、 利 用 和 保护 的 权利 ， 权 利 内 容 表现 为 
数据 管理 权 和 数据 控制 权 。 个 人 数据 权 是 相对 于 公民 数据 采集 义务 而 
形成 的 对 数据 利用 的 权利 ， 这 种 权利 是 建立 在 数据 主权 之 下 的 ， 私 法 
语 境 下 的 数据 权利 即 个 人 数据 权 ， 主 要 包括 数据 人 格 权 和 数据 财产 
权 。 数 据 人 格 权 包 含 数据 知情 同意 权 、 数 据 修改 权 、 数 据 被 遗忘 权 和 
删除 权 三 个 方面 ， 数 据 财 产权 包含 数据 采集 权 、 数 据 可 携 权 、 数 据 使 
用 权 、 数 据 收 益 权 四 个 方面 。 数 据 共 享 权 指 对 待 个 人 数据 信息 ， 在 某 
些 领 域 应 该 超越 私 权 观 念 而 将 其 作为 公共 物品 加 以 保护 和 规制 。 


当下 ， 在 数据 保护 方面 的 法 律 法 规 还 有 竺 完善， 而 建 章 立 制 也 不 
征 在 短期 内 束 能 完成 的 。 对 数据 的 保护 核心 是 要 确认 数据 为 独立 的 法 
律 关系 客体 ， 呐 定 构建 数据 规则 的 制度 基础 。 通 过 对 数据 法 律 性 质 和 
法 律 地 位 的 明确 ， 数 据 成 为 一 种 独立 利益 而 受到 法 律 的 确认 和 保护 。 
对 数据 进行 保护 的 目的 在 于 数据 的 目 由 流通 、 数 据 的 合理 利用 这 两 大 
利益 之 间 的 平衡 。 一 方面 在 于 创设 规则 ， 确 认 数据 之 上 的 权利 ， 另 一 
方面 在 于 创设 和 搭建 数据 平台 ， 促 进 数 据 的 目 由 流通 和 利用 。 


“ 数 法 ”指引 数字 文明 时 代 新 秩序 。 当 前 ， 我 们 正 处 在 一 个 前 
所 未 有 的 大 变 音 、 大 转型 时 代 。 继 农耕 文明 、 工 业 文 明之 后 ， 人 类 构 
建 了 一 个 轩 新 的 治理 形态 一 一 数 子 秩序， 以 及 一 个 杀 新 的 文明 形态 
数 子 文明。 这 一 次 的 文明 跃迁 像 一 场 风 粹 ， 渐 涝 着 一 切 旧 有 的 生 
态 和 秩序 ， 对 社会 存在 与 发 展 形成 颠 履 性 的 改变 。 数 据 权 利 化 思 泣 至 
前 活路 ， 数 据 的 实时 流动 、 共 至 构成 了 一 个 数据 化 的 生态 圈 ， 数 据 力 
与 数据 关系 影响 着 社会 关系 。 由 于 这 种 力量 的 相互 影响 ， 整 个 社会 生 


产 关 系 被 打 上 了 数据 关系 的 烙印 ， 这 将 引发 整个 社会 发 展 模 式 和 利益 
分 配 模 式 的 前 所 未 有 的 变 章 和 重 构 。 物 权 法 的 确立 是 社会 文明 进步 的 
标志 ， 在 人 类 进入 数字 文明 的 当下 ， 对 原 有 保护 规则 进行 必要 的 变通 
征 无 法 阻挡 的 趋势 。 数 字 文 明 时 代 ， 绝 大 多 数 的 法 律 规 范 都 将 发 生根 
本 性 变化 。 而 且 ， 数 子 文 明 所 影响 的 远 不 止 法 律 ， 而 是 对 整个 社会 的 
政治 、 经 济 、 文 化 、 科 技 等 各 领域 的 全 面 改造 。 数 字 文 明 带 来 的 不 仅 
仪 是 新 知识 、 新 技术 、 新 视野 ， 它 还 将 草 新 人 类 的 世界 观 、 价 值 观 和 
方法 论 。 数 权 法 是 文明 跃迁 的 产物 ， 也 将 是 人 类 从 工业 文明 向 数字 文 
明 变 草 的 新 秩序 。 


(三 ) 构建 网 络 空间 人 类 命运 共同 体 


秩序 是 文明 的 关键 词 ， 文 明 是 产生 剩余 秩序 输出 的 能 力 。 文 明 的 
凤 采 是 消耗 秩序 生产 力 的 结果 。 原 始 部 落 秩序 大 体 是 目 给 目 足 的 ， 随 
着 秩序 生产 力 的 升级 而 产生 文明 ， 最 终 进 入 文明 社会 。 数 权 法 的 提出 
为 云 脑 时 代 创 建 了 一 种 新 的 社会 秩序 ， 秩 序 生 产 力 的 升级 催生 了 新 一 
轮 的 社会 文明 一 一 数字 文明 。 当 前 ， 世 界 互 联网 呈现 新 的 发 展 趋势 ， 
以 信息 技术 为 代表 的 突破 俊生 新 一 轮 科技 草 命 和 产业 章 命 。 但 同时 ， 
在 互联 网 时 代 ， 人 类 也 面临 着 很 多 的 不 确定 性 ， 旧 制度 与 数字 章 命 的 
博 穿 仍 在 进行 ， 追 求 集体 利益 取代 追求 个 人 利益 ， 构 建 网 络 空间 人 类 
命运 共同 体 成 为 这 个 时 代 的 共性 命题 。 数 字 文 明 使 得 全 球 大 规模 协作 
成 为 可 能 ， 网 络 空间 人 类 命运 共同 体 大 门 得 以 开局 。 


数字 文明 的 核心 价值 是 实现 人 的 全 面 自由 发 展 。 马 克 思 
的 “个 人 全 面 发 展 ” 学 说 认为 ， 每 个 人 的 智力 、 体 力 在 社会 生产 过 程 中 
尽 可 能 多 方面 地 、 充 分 地 、 目 由 地 、 和 谐 地 发 展 ， 最 根本 的 十 个 人 劳 
动力 的 全 面 发 展 ， 成 为 各 方面 都 有 能 力 的 人 ， 即 能 通晓 整个 生产 系统 
的 人 。 人 的 全 面目 由 发 展 学 说 建立 在 “类 ”哲学 的 基础 上 ,“ 类 ”哲学 古 


以 人 为 核心 的 理论 ， 探 究 人 的 本 质问 题 、 存 在 问题 以 及 人 的 目 身 发 展 
问题 ， 从 根本 上 为 人 的 目 我 认识 和 解读 提供 了 人 性 根据 。 马 殉 思 在 
《1844 年 经 济 学 哲学 手稿 》 中 指出 “类 本 质 ” 为 : “通过 实践 创造 对 象 世 
界 ， 改 造 无 机 界 ， 人 证 明 目 己 古 有 意识 的 类 存在 物 ， 殊 是 说 是 这 样 一 
种 存在 物 ， 它 把 类 看 作 目 己 的 本 质 ， 或 者 说 把 目 身 看 作 类 存在 物 。” 
加 马克 思 从 人 的 实践 活动 、 从 在 现实 的 社会 存在 的 人 出 发 理解 人 
的 “类 本 质 *"， 把 目 由 目 沉 的 实践 活动 理解 为 人 的 “类 本 质 *。 实践 活动 
目 先 体现 的 是 人 与 目 然 的 否定 性 统一 关系 ， 它 意味 着 人 超越 了 动物 封 
闭 的 、 单 一 的 生存 方式 ， 通 过 人 与 对 象 本 质 的 相互 交换 ， 疝 整个 世界 
保持 开放 态度 ， 从 而 形成 整个 世界 的 一 体 性 的 内 在 关系 ， 无 论 是 人 与 
目 然 的 关系， 还 古人 与 他 人 的 关系 ， 痢 呈现 出 一 种 特殊 的 一 体 性 关 
系 。 


数字 文明 是 由 新 秩序 催生 的 新 型 文明 ， 其 最 本 质 的 特征 是 信任 和 
共 至 社会 。 其 中 信任 为 这 个 时 代 市 来 的 是 生产 和 生活 方式 的 变革 ， 信 
任 的 建立 使 得 社会 秩序 从 封闭 走 同 了 包容 和 开放 ， 为 人 的 全 面目 由 发 
展 提供 了 一 个 无 限 的 空间 。 共 这 社会 同时 带 来 了 生产 方式 和 分 配方 式 
的 变 草 ， 共 至 的 规律 是 在 关注 普 直 收益 的 同时 更 强调 平等 性 。 共 至 关 
注 的 是 社会 所 有 人 的 利益 ， 不 是 个 别人 物 、 某 些 阶层 或 团体 的 利益 。 
共有 至 社会 使 得 全 社会 的 个 体 之 则 建立 了 联系 ， 从 而 呈现 出 特殊 的 一 体 
性 。 此 外 ， 数 字 文 明 的 现实 体现 就 是 产生 了 数据 治理 文明 ， 这 种 文明 
推动 了 治理 主体 和 治理 结构 的 改变 ， 是 一 种 强调 以 人 为 中 心 的 发 展 理 
念 ， 其 发 展 的 最 终 价值 是 使 人 的 需要 得 到 充分 的 满足 ， 实 现 人 的 全 面 
目 由 发 展 。 


数字 文明 的 现实 意义 是 共同 体 理论 范式 的 重 构 。 在 经 济 全 
球 化 育 景 下 ， 人 类 社会 作为 一 个 相互 依存 的 共同 体 已 经 成 为 共识 ， 构 
建 “ 网 络 空 间 人 类 命运 共同 体 ” 已 成 为 全 社会 面临 的 一 个 共性 问题 。 数 
字 改 变 了 人 天 的 生产 生活 廊 式 ， 效 子 文 明 市 米 的 军 全 性 变 平 已 经 像 空 
气 一 样 ， 渗 透 在 我 们 生活 中 每 个 角落 ， 将 社会 个 体 串联 起 来 ， 构 建 起 


了 “你 中 有 我 ， 我 中 有 你 ”的 格局 。 由 此 ， 数 字 文 明成 为 构建 <“ 网 络 空间 
人 类 命运 共同 体 ” 的 实现 路 人 径 。 


马列 思 共 同体 思想 是 在 深刻 批判 资本 主义 社会 弊端 基础 上 提出 的 
关于 人 类 社会 形态 发 展 的 理论 ， 本 质 上 属于 社会 形态 的 研究 范式 ， 着 
力 回 答 人 在 不 同 的 共同 体形 态 下 生存 的 状态 ， 揭 示 了 人 发 展 的 规律 性 
及 其 历史 性 ， 致 力 于 探求 最 为 理想 的 人 类 生存 的 社会 形态。 数字 文明 
时 代 的 网 络 空间 人 类 命运 共同 体 思想 则 属于 人 类 文明 研究 范式 ， 主 要 
回答 人 类 文明 在 何 种 状态 下 才能 存续 和 发 展 ， 包 括 如 何 处 理 人 类 社会 
内 部 不 同 国家 不 同 民族 之 间 、 人 类 与 目 然 之 间 的 关系 ， 以 及 怎样 才能 
达到 高 层次 的 人 类 文明 生存 状态 。 从 范式 的 角度 看 ， 从 马 殉 思 的 共同 
体 思想 到 网 络 空 间 人 类 命运 共同 体 思 想 ， 实 现 的 不 仅 是 理论 的 跨越 ， 
也 推进 了 共同 体 理论 范式 的 重 构 。 共 同体 理论 范式 的 重 构 主要 体现 在 
目标 重 构 、 重 心 重 构 、 回 度 重 构 、 思 维 重 构 四 个 方面 。 


在 目标 重 构 方面 ， 实 现 了 从 规划 蓝图 到 现实 方案 的 转变 。 实 现 “ 真 
正 的 共同 体 ” 是 马克 思 共 同体 思想 的 理想 化 状态 ， 这 个 阶段 的 共同 体 只 
征 停留 在 一 个 理想 监 独 阶段 。 网 络 空间 人 类 命运 共同 体 思 想 则 是 在 人 
类 面临 现实 而 严峻 的 挑战 面前 提出 的 关于 人 类 文明 发 展 的 新 思想 ， 目 
的 在 于 把 马克 思 共 同体 思想 的 理想 目标 现实 化 、 具 体 化， 使 其 既 有 理 
想 的 目标 ， 也 有 具体 的 路 径 。 


在 重心 重 构 方 面 ， 实 现 了 从 制度 章 合 到 全 球 治理 的 转变 。 制 度 的 
变 草 推 动 了 社会 形态 的 更 兰 ， 实 现 “ 真 正 的 共同 体 ” 是 以 终结 不 符合 当 
下 社会 发 展 的 制度 为 前 提 。 但 解决 危及 人 类 生存 的 全 球 性 问题 不 能 只 
依靠 全 球 范围 内 的 制度 时 命 来 解决 ， 更 应 聚焦 于 和 人 类 文明 存续 紧密 
相连 的 全 球 治理 的 改革 和 完善 。 


在 癌 度 重 构 方面 ， 实 现 了 从 单一 癌 度 癌 多 重 同 度 的 转变 。 马 殉 思 
主要 钙 从 共同 体形 态 变迁 的 同 度 探讨 人 的 问题 的 根本 性 解决 方案 。 网 
络 空间 人 类 命运 共同 体 是 一 个 从 多 问 度 角度 构建 覆 蓄 多 领域 、 具 有 多 


层次 、 体 现 多 方位 的 综合 性 、 立 体型 共同 体 。 利 花 共 亨 、 责 任 共 担 ， 
为 打造 命运 共同 体 提 供 重 要 基础 和 必由之路 。 


在 思维 重 构 方面 ， 实 现 了 从 深刻 批判 到 共生 共 赢 的 转变 。 深 刻 批 
判 资本 主义 “虚幻 的 共同 体 * 是 马克 思 提 出 “真正 的 共同 体 * 理 想 的 内 在 
逻辑 。 网 络 空间 人 类 命运 共同 体 思 想 主张 构建 具有 包容 性 的 共生 共 赢 
共同 体 。 网 络 空 间 人 类 命运 共同 体 主张 摆脱 源 自 资本 主义 工业 文明 中 
的 征服 自然 的 对 抗 思维 ， 牢 固 树立 尊重 自然 、 顺 应 自然 、 保 护 自 然 的 
意识 ， 坚 持 走 绿色 、 低 碳 、 循 环 、 可 持续 发 展 之 路 ， 实 现世 界 的 可 持 
续 发 展 。 同 


网 络 空 间 人 类 命运 共同 体 以 世界 文明 和 人 的 自由 全 面 发 展 
为 最 高 价值 追求 。 网 络 已 经 把 世界 连 成 一 个 不 可 分 割 的 整体 ， 世 界 
各 国之 间 的 贸易 往来 和 文化 交往 因为 网 络 而 更 加 频繁 和 密切 。 建 构 网 
络 衬 间 命运 共同 体 是 把 世界 人 民 作为 价值 的 出 发 点 和 落脚 点 ， 真 正 让 
世界 人 民 以 网 络 空 间 为 载体 ， 吸 收 和 借鉴 人 类 历史 发 展 的 精神 财富 和 
文化 精华 。 网 络 的 运用 和 发 展 客观 上 极 大 地 促进 了 世界 文明 传播 和 世 
界 民 族 大 融合 ， 世 界 人 民 的 交流 和 共享 也 极 大 地 促进 了 各 民族 文化 的 
传承 和 创新 ， 使 人 类 文明 进入 一 个 新 的 发 展 阶段 。 同 时 ， 建 构 一 个 文 
明 、 开 放 、 共 至 的 网 络 空间 命运 共同 体 钙 建立 在 平等 、 和 和谐、 正义 基 
础 上 的 。 , 在 网 络 的 特定 发 展 空 3 间 里 ， 作 为 个 体 的 人 的 价值 诉求 也 是 永 
恒 的 ， 追 求 目 由 全 面 发 展 是 不 变 的 追求 。 网 络 作为 全 球 化 发 展 和 以 市 
场 经 济 为 基础 的 一 种 发 展 痢 形 式 和 新 阶段 ， 如 何 摆脱 “资本 >” 和“ 物 ” 的 
剥 前 和 压榨 ， 如 何 让 人 类 真正 实现 个 性 的 目 由 ， 建 构 网 络 空 间 命运 共 
0 解锁 之 钥 ”。 网络 产业 和 网 络 技术 的 发 展 都 是 以 市 场 
经 济 为 主导 的 ， 建 构 网 络 空 间 命运 共同 体 ， 加 强 网 络 的 综合 治理 ， 实 
质 上 就 是 建构 一 种 合理 的 新 型 市 场 天 系 ， 使 人 民 成 为 网 络 的 主人 ， 使 
人 民 在 网 络 空间 里 当家 作 主 ， 真 正 实现 人 的 目 由 全 面 发 展 。 
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导电 


块 数据 的 研究 已 经 进入 4.0 时 代 。 回 顾 目 2013 年 以 来 的 整个 研究 历 
程 ， 块 数据 已 经 从 一 个 由 大 数据 战略 重点 实验 室 提 出 的 概念 ， 成 为 近 
年 来 我 国 在 大 数据 理论 创新 和 实践 创新 方面 的 重要 制高点 块 数据 已 
经 从 最 初 一 个 基于 社会 学 研究 的 假设 ， 成 为 被 大 数据 技术 专业 领域 所 
熟知 并 不 断 应 用 的 重要 理论 ， 因 为 块 数据 ， 甚 至 催生 了 一 场 治 理 领 域 
的 “新 风 和 又 "一 一 治理 大 数据 与 大 数据 治理 ， 并 使 它 的 实现 和 兴起 成 为 
可 能 。 今 天 ， 块 数据 4.0 以 人 工 智能 时 代 的 激活 数据 学 为 主题 ， 深 度 研 
完 激 活 数据 学 的 运行 机 理 以 及 应 用 场景 ， 这 不 仅仅 是 研究 的 延续 ， 更 
是 一 次 全 新 的 理论 跃升 。 


“激活 数据 学 ?是 时 任 贯 州 省 委 常 委 、 贯 阳 市 委 书 记 陈 刚 同志 在 
2015 年 12 月 1 日 会 见 微软 亚洲 研究 院 向 务 副 院 长 马 维 英 博士 时 提出 的 。 
2017 年 5 月 22 日 ， 陈 刚 同志 又 对 “激活 数据 学 ”进行 专题 指导 ， 提 出 了 一 
系列 重要 观点 ， 为 《 块 数据 4.0》 的 研究 页 定 了 坚实 的 基础 。 激 活 数据 
学 是 以 充分 发 挥 人 机 群体 智能 为 核心 ， 综 合 运 用 数据 科学 、 生 命 科 
学 、 社 会 科学 、 伦 理学 等 提出 的 海量 数据 存储 、 处 理 和 利用 的 解决 方 
案 。 块 数据 束 像 是 一 个 脑 神经 元 ， 而 激活 数据 学 则 是 解决 100 亿 个 脑 神 
经 元 怎样 组 成 大 脑 的 数据 库 构 架 系 统 ， 并 将 成 为 未 来 数据 库 构 架 系 统 
的 核心 价值 取 同 。 激 活 数 据 学 既是 进行 多 维度 大 数据 分 析 的 方法 论 ， 
也 十 基 于 复杂 理论 的 大 数据 研究 新 范式 。 


“激活 数据 学 ”的 提出 ， 既 是 基于 现实 的 ， 更 是 面向 未 来 的 。 在 小 
数据 时 代 ， 数 据 越 大 ， 价 值 越 大 ， 而 在 大 数据 时 代 ， 数 据 越 大 ， 价 值 
越 小 。 数 据 迅 猛 膨胀 将 使 < 数据 拥堵 ?现象 日 益 普 届 ， 并 成 为 困扰 人 类 
的 重要 社会 问题 之 一 。 面 对 海量 数据 的 产生 ， 我 们 如 何 发 展 人 工 智 


能 ， 如 何 利用 人 工 智能 为 人 类 解决 庞杂 的 数据 难题 已 成 为 大 数据 研 完 
的 热点 和 难点 。 激 活 数据 学 整 是 基于 当下 的 数据 时 代 背 景 ， 以 复杂 理 
论 为 基础 来 探讨 海量 数据 拥堵 的 解决 方案 的 学 科 。 其 内 在 的 研究 机 理 
征 ， 从 条 数据 到 块 数据 ， 再 从 块 数据 到 数据 库 构架 系统 。 条 数据 永远 
只 会 做 增 量 ， 这 也 是 造成 数据 拥 墙 的 原因 所 在 。 块 数据 通过 关联 融 
合 ， 开 始 做 减 量 ， 史 除 无 效 数据 。 但 即便 如 此 ， 问 题 还 远 远 没有 解 
决 ， 我 们 需要 一 种 更 加 高 效 的 数据 存储 、 处 理 和 利用 方式 ， 它 的 制造 
成 本 、 维 护 成 本 、 运 行 成 本 要 降 到 最 低 ， 否 则 ， 数 据 拥 墙 带 来 的 灾难 
依然 无 法 避免 。 这 才 是 激活 数据 学 要 重点 解决 的 问题 。 那 么 ， 激 活 数 
据 学 是 通过 什么 来 解决 这 个 问题 呢 ? 数据 搜索 、 关 联 融 合 、 目 激活 、 
热点 减 量化 和 群体 吞 能 这 5 大 核心 构 染 技术 ， 将 成 为 未 来 数据 库 构 染 系 
统 的 重要 文 撑 。 其 核心 是 把 线 上 的 机 器 和 线 下 的 人 进行 重 混 ， 也 束 是 
明文 凯利 讲 的 remakes， 是 指 人 与 机 万 将 共同 完成 一 场 新 的 大 分 工 、 
大 调整 ， 人 类 社会 将 进入 人 脑 + 电 脑 的 云 脑 时 代 。 


本 书 是 根据 陈刚 同志 关于 “激活 数据 学 ”的 最 新 观点 ， 在 《 块 数 
据 》《 块 数据 2.0》《 块 数据 3.0》 基 础 上 推出 的 又 一 大 数据 理论 创新 成 
果 。 大 数据 战略 重点 实验 室 汇 聚 了 一 批 专 业 人 研究 者 ， 对 《 块 数据 4.0》 
进行 了 集中 人 研讨 和 深化 。 在 本 书 的 研究 和 写作 过 程 中 ， 陈 刚 同志 提出 
总 体 思路 和 核心 观 氮 ， 连 玉 明 对 本 书 的 框架 体系 进行 了 总 体 设计 ， 朱 
颖 下 、 武 建 忠 细 化 主题 思想 ， 宋 青 、 明 海 采 、 宁 和希 贰 形成 提纲 和 组 织 
编写 ， 主 要 由 连 玉 明 、 朱 锁 慧 、 武 建 忠 、 宋 青 、 胡 海宁 、 宋 布 久 、 张 
俊 立 、 张 龙 翔 、 范 贯 最 、 龙 采 远 、 黄 倩 、 刍 涛 、 容 汪 、 郑 既 、 陈 威 、 
何 露 、 妆 表 、 陈 鹏 、 胡 亚 习 、 田 昔 梅 负 贡 反 写 ， 宋 和 硕 质 负责 统 稿 ， 连 
玉 明 、 朱 颖 达 、 武 建 叫 、 张 俊 立 负责 审 稿 。 在 本 书写 作 过 程 中 ， 陈 刚 
同志 多 次 提出 前 脆性 和 指导 性 的 建议 ， 进 一 步 丰 富 了 本 书 的 思想 体系 
和 理论 体系 。 北 京 市 人 大 第 委 会 副 主 任 、 致 公营 北 泵 市 委 主 委 同 傲 
霜 ， 贯 州 省 委 常 委 、 铝 务 副 省 长 、 省 政府 党 组 副 书 记 、 贯 阳 市 委 书 记 
李 再 勇 ， 北 京 市 科学 技术 委员 会 党 组 书记 、 主任 许 强 ， 贯 阳 市 委 副 书 
记 、 市 人 民政 府 市 长 陈 受 ， 贯 阴 市 委 肖 委 、 秘 书 长 、 统 战 部 部 长 功 雪 


松 ， 贵 阳 市 委 和 常委 、 津 务 副 市 长 徐 昊 ， 对 本 书页 献 出 了 大 量 前 脆性 的 
思想 和 观点 。 此外， 中 信 出 版 集团 前 治 社 社 长 葛 永 军 组 织 多 名 编辑 精 
心 编校 、 精 心 设计 ， 保 证 了 本 书 如 期 出 版 。 在 此 一 并 表示 衷心 的 感 
谢 ! 


对 “激活 数据 学 ”展开 的 研究 是 全 新 的 、 复 洒 的 、 跨 界 的 ， 所 面临 
的 困难 不 仅仅 是 知识 障碍 与 局 限 ， 更 多 的 是 来 目 对 未 来 发 展 以 及 根本 
规律 认 知 与 决断 的 突破 。 同 时 ， 在 本 书 成 稿 的 过 程 中 ， 由 于 著者 水 平 
有 限 、 时 间 仓 促 ， 难 免 有 玖 漏 之 处 ， 尽 请 读者 批评 指正 。 


大 数据 战略 重点 实验 室 
2018 年 3 月 3 日 于 北京 


